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概率 论 是 研究 自然 界 和 人 类 社会 中 的 随机 现象 数量 规律 的 数学 分 支 . 概率 论 的 理论 和 方 
法 与 数学 的 其 他 分 支 、 自 然 科学 、 工 程 、 人 文 及 社会 科学 各 领域 相互 交叉 渗透 , 已 经 成 


为 这 些 学 科 中 的 基本 方法 . 概率 论 (或 概率 统计 ) 和 高 等 数学 一 样 , 已 经 成 为 我 国 高 等 学 
校 各 专业 普遍 设立 的 一 门 基础 课 . 


Dimitri P. Bertsekas 和 John N. Tsitsiklis 编 写 的 这 本 《概率 导论 》 独 具 特 色 . 作者 
用 流畅 的 笔调 , 阐述 了 概率 论 的 基本 原理 和 方法 , 同时 用 大 量 丰 富 的 例子 说 明 概 率 论 的 
应 用 领域 的 广泛 性 . 本 书 在 内 容 上 具有 一 些 鲜明 的 特点 . 首先 教材 的 内 容 丰 富 , 除了 系统 
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的 男 一 个 特点 是 它 的 广泛 适应 性 和 理论 的 完整 性 . 初学 者 通过 系统 学 习 , 可 以 掌握 概率 
论 和 统计 学 的 基本 原理 ;追求 数学 严密 性 的 学 生 , 也 可 从 本 书 的 注解 和 习题 解答 中 学 习 
到 概率 统计 的 严格 理论 , 了 解 理论 的 完整 性 和 逻辑 的 严密 性 . 
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第 2 版 前 言 


本 书 对 第 1 版 进行 了 重大 改动 : 对 原 有 材料 的 编排 做 了 变动 , 增加 了 新 的 材料 , 页 数 也 增 
加 了 25 %. 主要 的 改动 如 下 . 


(a) 统计 推断 方面 增加 了 两 章 内 容 : 一 章 是 贝 叶 斯 统计 ;一 章 是 经 典 统计 推断 . 这 两 章 
的 主要 内 容 是 介绍 基本 概念 , 并 通过 例子 加 深 对 方法 的 理解 . 


(b) 重新 安排 组 织 了 第 3、 第 4 两 章 的 内 容 , 一 方面 是 为 了 增加 新 的 内 容 , 男 一 方面 是 为 
J 第 1 版 中 的 4. 7 节 ( 二 元 正 态 分 布 ) 已 经 删 去 , 但 是 在 本 书 的 网 页 上 还 保留 


(c) 增加 了 一 些 例子 和 习题 . 


新 版 的 主要 目的 是 为 教师 提供 更 多 的 材料 以 供 他 们 选材 , 特别 是 提供 了 统计 推断 引 论 的 
题材 . 注意 本 书 第 6 7 章 和 第 8 9 章 在 内 容 上 是 相互 独立 的 . 另外 , 第 5 7 章 的 内 容 是 不 依 
赖 第 4 章 的 , 第 8 9 章 只 需要 知道 4. 2 4. 3 节 的 内 容 . 因此 , 利用 本 书 , 可 以 提供 下 列 的 课 


程 . 

(a) 概率 论 与 统计 推断 引 论 : 第 1>3 章 , 4. 2"4. 3 节 , 第 5 章 , 第 8 9 章 . 

(b) 概率 论 与 随机 过 程 引 论 : 第 1>3 章 , 第 5 7 章 , 加 上 第 4 章 少数 几 节 . 

我 们 要 对 我 们 的 同行 表示 感谢 . 他 们 对 第 1 版 的 内 容 提 出 了 宝贵 的 建议 , 同时 对 新 增 材料 
的 组 织 提 供 了 帮助 . 特别 是 Ed Coffman、 MuntherDahleh、 Vivek Goyal、 Anant 


Sahai、 David Tse、 George Verghese、Alan Willsky、 John Wyatt 等 . 最 后 , 我 们 
要 感谢 Mengdi Wang, 她 为 新 增 的 两 章 提 供 了 习题 和 图 表 . 




















































































































Dimitri P.Bertsekas, dimitrib@mit.edu 
John N.Tsitsiklis, jnt@mit. edu 


2008 年 6 月 于 麻 省 剑桥 


方 乞 一 = 
有 二 

概率 是 用 计算 概括 的 常识 . 

一 一 拉 普 拉 斯 


本 书 是 我 们 在 MIT 开 设 的 一 门 概率 论 入 门 课程 “概率 系统 分 析 ” 的 基础 上 写成 的 . 


选择 这 门 课程 的 学 生来 自 全 校 各 个 科 系 , 他 们 背景 各 异 , 且 兴 趣 广泛 , 既 有 了 刚 入 学 的 本 科 

一 年 级 新 生 也 有 研究 生 , 既 有 学 工科 的 也 有 学 管理 的 . 为 此 ， 在 教学 上 我 们 一 直 力求 表达 

简洁 而 又 不 失 分 析 推 理 的 严格 . 我 们 教学 的 主要 目的 是 培养 学 生 构 造 和 分 析 概 率 模 型 的 
能 力 , 希望 学 生 既 具备 直观 理解 力 又 注重 数学 的 准确 性 


根据 这 种 精神 , 概率 论 模型 中 茶 些 很 严格 的 数学 推导 被 简化 处 理 了 , 或 者 只 是 进行 了 直 
观 的 解释 , 免得 复杂 的 证 明 妨 碍 了 学 生 对 概率 论 本 质 的 理解 . 同时 , 有 些 分 析 留 在 每 章 最 
后 的 理论 习题 部 分 , 它们 用 到 高 等 微 积分 知识 . 此 外 , 为 了 满足 茶 些 专业 读者 的 需要 , 我 
们 将 某 些 推 理 过 程 中 的 数学 技巧 展示 在 注解 中 . 


本 书包 含 了 概率 论 的 基础 理论 部 分 (概率 模型 、 离 散 随机 变量 和 连续 随机 变量 、 多 元 随 
机 变量 以 及 极限 定理 ), 这 些 都 是 概率 论 入 门 教 材 的 主要 内 容 . 在 第 4 6 章 , 也 包含 了 一 些 
较 高 级 的 内 容 , 教师 在 讲授 的 过 程 中 可 以 选择 部 分 内 容 , 以 配合 课程 大 纲 的 具体 需求 . 其 
中 第 4 章 介 绍 了 算 母 函数 、 条 件 概 率 的 现代 定义 、 独 立 随机 变量 的 和 、 最 小 二 乘 估计 、 
二 维 正 态 分 布 等 内 容 ; 第 5~6 章 较为 详细 地 介绍 了 伯 努 利 、 泊 松 和 马尔 可 夫 过 程 


我 们 在 MIT 开 设 的 (一 学 期 ) 课 程 中 , 讲授 了 第 1 7 章 的 几乎 全 部 内 容 , 只 是 略 去 了 二 维 正 
态 分 布 (4.7 节 ) 和 连续 时 间 马 尔 可 夫 链 (6. 5 节 ) 两 部 分 . 然而 ， 也 可 以 作 如 下 选择 : 略 去 
课本 中 关于 随机 过 程 的 全 部 内 容 , 这 样 可 使 任课 教师 集中 精力 介绍 概率 论 的 基本 概念 ， 
或 者 增加 一 些 感 兴趣 的 其 他 材料 . 


本 书 的 主要 省 略 之 处 是 缺乏 对 统计 学 的 全 面 介 绍 . 我 们 引入 了 离散 和 连续 情形 下 的 贝 叶 
斯 准则 和 最 小 二 乘 估计 , 引入 贝 叶 斯 统计 理论 , 但 并 不 涉及 参数 估计 和 非 贝 叶 斯 假设 检 
验 . 


本 书 的 习题 可 以 分 成 三 类 


(a) 理论 习题 : 理论 习题 (用 # 标 明 ) 是 教材 的 重要 组 成 部 分 . 具有 数学 背景 的 学 
现 这 部 分 内 容 是 由 课文 自然 拓展 而 来 . 我 们 同时 给 出 了 这 部 分 习题 的 解答 . 但 是 , 善于 思 
考 的 读者 会 发 现 大 部 分 (特别 是 前 几 章 的 ) 习题 都 能 自己 独立 地 做 出 来 . 


) 课程 习题 : 除 理论 习题 外 , 书 中 还 包含 了 难度 各 异 的 其 他 习题 . 这 些 习题 是 在 MIT 的 
0 研究 的 题目 , 也 是 MIT 的 学 生 学 习 概 率 论 的 主要 方法 之 一 .我 们 希望 学 生 首 
先 独立 地 做 习题 , 然后 参考 标准 答案 进行 核对 , 这 样 可 以 提高 他 们 的 学 习 能 力 . 答案 公布 
在 教材 的 网 页 上 : http://www. athenasc. com/probbook. 
































































































































(c) 补充 习题 : 有 很 多 补充 习题 并 没有 印 在 书 上 , 但 是 在 本 书 的 网 页 上 可 以 查 到 ( 且 越 
来 越 多 ). 其 中 许多 习题 是 MIT 学 生 的 家 庭 作 业 和 考试 题目 . 我 们 希望 采用 本 教材 的 教师 
可 以 同样 地 利用 它们 . 这 些 题目 放 在 网 上 是 公开 的 , 但 是 题目 的 答案 是 不 公开 的 . 采用 本 
教材 的 教师 可 以 联系 作者 得 到 这 些 答 案 . 


我 们 要 感谢 许多 为 本 书 作出 贡献 的 人 . 当 我 们 开始 在 MIT 接 手 这 门 概 率 论 课程 的 教学 任 
务 时 , 就 开始 了 写 书 的 计划 . 我 们 的 同事 Al Drake 教 这 门 课 已 经 几 十 年 了 .他 的 课程 组 织 
经 历 了 时 间 的 考验 , 其 经 典 教材 对 各 个 题材 均 有 生动 的 描述 , 还 有 大 量 讨论 班 内 容 和 家 
姓 作 业 等 丰富 的 材料 , 我 们 十 分 庆幸 自己 的 工作 有 这 样 高 的 起 点 . 特别 感谢 Al] Drake 给 
我 们 创造 了 如 此 有 利 的 起 始 条 件 . 


我 们 也 要 感谢 其 他 院 校 的 几 位 同事 , 他 们 有 的 利用 本 书 的 手稿 进行 教学 , 有 的 阅读 过 手 
稿 , 并 对 本 书 的 改进 提供 了 反馈 . 我 们 要 特别 感谢 Ibrahim Abou Faycal、 Gustavo de 
Veciana、 Eugene Feinberg、 Bob Gray、Muriel Médard、 Jason Papastavrou、 
Ilya Pollak、 David Tse、 Terry Wagner 等 . 

还 有 MIT 的 助教 们 , 他 们 对 各 阶段 的 书稿 进行 了 认真 的 校 核 , 并 丰富 和 完善 了 习题 和 解 
答 . 通过 他 们 与 学 生 的 直接 交流 , 才 使 得 本 教材 能 够 适应 学 生 的 学 习 水 平 . 


本 书 能 够 为 MIT 的 数 千 学 生 在 其 学 业 生涯 之 初 提供 服务 , 使 我 们 感到 十 分 欣慰 . 在 本 书 的 
成 书 过 程 中 , 他 们 热心 反馈 书本 中 的 问题 和 学 习 心得 . 在 此 感谢 他 们 的 反馈 与 耐心 . 


最 后 , 我 们 还 要 感谢 我 们 的 家 人 在 这 个 漫长 的 成 书 过 程 中 对 我 们 的 支持 . 






























































Dimitri P.Bertsekas, dimitrib@mit. edu 
John N.Tsitsiklis, jnt@mit. edu 


2002 年 5 月 于 麻 省 剑桥 


第 1 章 样本 空间 与 概率 


是 一 个 非常 有 用 的 概念 , 它 可 以 从 不 同 的 层面 来 加 以 解释 . 先 看 下 面 一 幅 对 话 
分 


一 个 病人 被 送 进 医院 , 并 施 以 一 种 急救 的 药 . 病人 家 属 为 了 了 解 药 的 疗效 , 询问 了 当 
班 的 护士 . 下 面 是 他 们 之 间 的 一 段 对 话 . 


家 属 : 护士 小 姐 , 请 问 这 种 药 有 效 的 概率 是 多 少 ? 

护士 : 我 希望 这 种 药 是 有 效 的 , 明天 就 会 见 分 晓 . 

家 属 : 是 的 , 但 是 我 想 知道 这 种 药 有 效 的 概率 . 

护士 : 每 个 病人 的 病情 是 不 一 样 的 , 看 情况 发 展 吧 . 

家 属 : 这 么 说 吧 , 在 100 宗 类 似 的 病例 中 , 你 认为 有 多 少 宗 是 有 效 的 ? 


护士 (有 些 不 耐烦 ) : 我 已 经 告诉 你 了 , 每 个 病人 的 情况 是 不 一 样 的 . 这 种 药 , 对 茶 些 
病人 是 有 效 的 , 对 男 一 些 病人 是 无 效 的 . 


家 属 ( 继 名 号 坚持 ) : 现在 请 告诉 我 , 如 果 必 须 打 赌 的 话 , 你 会 押 哪 一 注 , 这 种 药 是 有 效 
还 是 无 效 ? 


护士 (有 些 惊 奇 ): 那 我 愿意 打赌 , 对 于 这 位 病人 , 这 种 药 是 有 效 的 . 


家 属 ( 多 少 松 了 一 口气 ) : 好 吧 ! 我 再 问 你 , 你 是 否 愿意 如 此 押 注 : 若 这 药 无 效 , 你 
输 掉 2 元 钱 ; 若 这 上 药 有 效 , 你 赢 1 元 钱 ? 


护士 (有 些 恼怒 ): 多 么 殉 请 的 想法 ! 你 是 在 浪费 我 的 时 间 . 


在 这 组 对 话 中 , 病人 家 属 希 望 用 概率 的 概念 同 护 士 讨 论 药 的 疗效 这 种 具有 不 确定 性 的 事 
件 . 但 是 护士 的 第 一 反应 是 对 概率 这 个 概念 的 不 认可 , 或 不 理解 , 而 家 属 试图 将 概率 的 概 
念 解释 得 更 具体 一 些 . 他 首先 试图 将 概率 解释 成 偶然 事件 在 多 次 重复 试验 中 出 现 的 频 
率 , 这 是 最 通常 的 解释 . 例如 , 我们 说 一 枚 两 面 对 称 的 硬币 , 在 抛掷 试验 中 以 50% 的 概率 出 
现 正面 , 这 么 说 实际 上 是 指 在 多 次 重复 抛掷 硬币 时 , 出 现 正面 向 上 的 次 数 约 占 一 半 . 但 是 
护士 似乎 不 大 愿意 接受 家 属 的 这 种 想法 , 护士 的 想法 不 是 完全 没有 道理 . 如 果 这 种 药 是 
第 一 次 在 医院 里 使 用 , 或 护士 从 没有 过 这 方面 的 经 验 , 那 何 从 谈 起 治愈 的 频率 呢 ? 


在 许多 涉及 不 确定 性 的 事例 中 , 用 频率 解释 是 适宜 的 , 然而 , 也 有 一 些 事例 不 宜 用 频率 解 
释 . 比如 , 有 一 个 学 者 以 90% 的 把 握 断言 《伊里 亚 特 》 和 《奥德赛 》 是 由 同一 作者 创作 

的 . 由 于 他 所 讨论 的 是 不 可 重复 的 一 次 性 事件 ， 这 样 的 结论 只 是 提供 一 些 主观 看 法 ， 而 与 
频率 无 关 . 所 谓 概率 为 90% 的 把 握 只 是 学 者 的 主观 信念 . 或 许 有 人 认为 主观 信念 是 不 值得 
研究 的 , 至 少 从 数学 或 科学 的 观点 来 看 是 如 此 . 但 是 在 实际 生活 中 ， 人 们 面 对 不 确定 性 的 















































































































































时 候 , 经 常 不 得 不 作出 抉择 . 为 了 作出 正确 的 或 至 少 保持 一 致 的 抉择 , 科学 和 系统 地 利用 
他 们 的 主观 信念 是 一 个 先决 条 件 . 


事实 上 , 一 个 理智 的 选择 和 行动 揭示 了 许多 内 在 的 主观 概率 , 然而 在 许多 场合 中 , 作出 抉 
择 的 人 自己 也 没有 意识 到 他 们 应 用 了 概率 推理 . 在 前 面 的 对 话 场景 中 , 病人 家 属 以 一 种 

隐蔽 的 方式 试图 推断 护士 的 主观 信念 . 由 于 护士 愿意 以 1:1 的 赔 率 打 赌 这 种 药 是 有 效 的 ， 
那么 在 护士 的 主观 概念 中 , 这 种 药 有 效 的 概率 至 少 为 50%. 如 果 这 位 护士 接受 对 话 最 后 提 
出 的 赔 率 为 2:1 的 赌注 的 话 , 这 说 明 在 护士 的 主观 概念 中 , 这 种 药 有 效 的 概率 至 少 为 2/3. 


在 此 我 们 不 去 深究 概率 推理 适用 性 方面 的 哲学 问题 , 而 是 事先 假定 概率 论 在 很 多 方面 都 


有 具 有 实用 价值 , 包括 概率 只 反映 主观 信念 的 情形 . 概率 论 在 科学 、 工 程 、 医 药 、 管 理 等 
领域 中 有 许多 成 功 应 用 的 事例 . 这 许多 经 验证 据说 明 概率 论 在 应 用 中 是 一 种 极其 有 用 的 
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本 书 的 主要 目的 是 发 掘 用 概率 模型 描述 不 确定 性 的 艺术 和 提高 概率 推理 的 能 力 . 作为 第 
一 步 , 本 章 要 把 概率 模型 的 基础 结构 及 基本 性 质 刻 画 清 楚 . 概率 是 定义 在 某 些 试验 结果 
的 集合 上 的 . 为 此 , 我 们 首先 应 该 对 集合 论 作 一 简介 . 

















1.1 集合 
概率 论 大 量 应 用 集合 运算 . 我 们 首先 引进 相关 的 记号 和 术语 . 
将 一 些 研究 对 象 放 在 一 起 , 形成 集合 , 而 这 些 对 和 象 就 称 为 集合 的 元 素 . 设 9 是 一 个 集 


合 ,x 是 S 的 元 素 , 我 们 将 元 素 和 集合 的 这 种 关系 写成 rE 5. 若 x 不 是 5 的 元 素 , 就 
写成 #5. 一 个 集合 可 以 没有 元 素 , 这 个 特殊 的 集合 就 称 为 空 集 , 记 作 忆 . 








可 用 不 同 的 方法 刻画 一 个 集合 . 车 5 包含 有 限 个 元 素 ,72,… ,zm 我 们 只 需 将 这 些 元 
素 列 在 花 括 弧 中 


9 = {Zz1,7T2,.… ,Tn}. 


例如 ， 4 2 结果 的 集合 是 {1 2, 3, 4, 5, 6}, 抛 一 枚 硬币 的 可 能 结 
的 集合 是 {7}, 其 中 有 代表 正面 向 上 ， ee 


若 5 包含 无 限 多 个 元 素 ;72,… 但 它们 可 以 像 正 整数 那样 排 成 一 列 , 我 们 可 写成 
S= { TI Td }, 
此 时 称 5 为 可 数 无 限 集 . 例如 , 偶数 的 集合 {0,2, 一 2,4, 一 4,…} 是 一 个 可 数 无 限 集 . 
我 们 也 可 以 以 x 具有 某 种 性 质 P 为 条 件 来 刻画 一 个 集合 , 记 作 
xX |x 满足 性 质 己 }. 

。 如 , 偶数 集合 可 写成 { 是 整数 }. 类 似 地 , 在 实数 区 间 [0, 1] 中 的 数 集 可 表示 成 

{7 0 zz 1 注意 ,集合 {7|0 7 1} 是 一 个 连续 集合 , 它 不 可 能 排 成 一 列 ( 章 后 习题 
中 给 出 了 证 明 概 要 ). 这 样 的 集合 是 不 可 数 的 集合 . 
若 集 合 8 的 所 有 元 素 均 为 集合 7 的 元 素 , 就 称 5 为 7 的 子 集 ， us SCT 或 
. 若 ScT 且 TC s, 则 两 个 集合 相等 , 记 作 5 = 7 . 引入 空间 的 概念 是 十 分 必 


要 
我 们 感 兴趣 的 所 有 元 素 放 在 一 起 , 形成 一 个 集合 , 这 个 集合 称 为 空间 ， 记 作 2. 当 只 确 
定 以 后 , 我 们 所 讨论 的 集合 9? 都 是 2 的 子 集 . 


1.1.1 集合 运算 
集合 {7 EQ|z gg 5} 称 为 集合 5 相对 于 Q 的 补 集 , 记 作 sc. 注意 0 二. 


由 属于 5 或 属于 7 的 元 素 组 成 的 集合 称 为 5 和 7 的 并 , 记 为 5UT. 既 属 于 9 又 属 
于 7 的 元 素 组 成 的 集合 称 为 9 和 7 的 交 , 记 成 SnT. 这 些 集合 可 用 下 列 公式 表达 : 
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一 好 | 下 光 启 对 某 个 nn 成立}， 


= {zl ze Sn 对 一 切 n 成 立 }. 


有 时 候 我 们 需要 考虑 几 个 甚至 无 穷 个 集合 的 并 和 区 的 问题 . 例如 , 如 果 每 一 个 正 整数 了 


都 确定 一 个 集合 5n, 则 


【S55 =51U S20… = {z| ze 5, 对 某 个 成立}, 
= 


{Sn = S51n52… = {z| ze Sn 对 一 切 n 成 立 }. 


le 


!) 阴影 部 分 是 SnT 


S 
— 


)) 阴影 部 分 是 SUT 





(d) 此 处 是 Tc 5, 阴 
影 部 分 是 5° 


图 1.1 维 恩 图 的 例子 
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(c) 阴影 部 分 是 Sn7 


(f) 5, T 和 U 形 成 9 的 
一 个 分 割 


两 个 集合 称 为 不 相交 的 , 如 果 它 们 的 交集 为 空 集 . 更 一 般 地 , 几 个 集合 称 为 互 不 相交 的 ， 
如 果 任 何 两 个 集合 没有 公共 元 素 . 一 组 集合 称 为 集合 S$ 的 分 割 , 如 果 这 组 集合 中 的 集合 


互 不 相交 , 并 且 它 们 的 并 为 5 


设 x 和 7 为 两 个 研究 对 象 , 我 们 用 (za 吃 表 示 x 和 y 的 有 序 对 . 我们 用 R 表示 实数 
集合 ,用 R? 表示 实数 对 的 集合 , 即 二 维 平 面 ,用 R* 表示 三 维 实数 向 量 的 集合 (三 维 空 


间 ) . 集合 及 其 运算 可 用 维 恩 图 形象 化 表示 , 见 图 1. 1. 




















1.1.2 集合 的 代数 

集合 运算 具有 若干 性 质 , 这 些 运算 性 质 可 由 运算 的 定义 直接 证 得 , 举例 如 下 : 
SUT=TUS. SU(TUU ) > [ EL ER 
SN(TUUV= (SNT)U(SNU), SU(TNU(SUTINTGSUD, 
(S°): =5, SNMS= 8, 
SUQ=Q, SNMNO=S5S. 


下 面 给 出 的 两 个 公式 就 是 著名 的 德 摩根 定律 : 


(U sj = 门 ss sj = Us:. 
现在 证 明 第 一 个 公式 . 设 TE (Unsn) , 这 说 明 TUnSn, 即 对 一 切 nT Sn. 因而 ,对 每 
一 个 x 属于 Sn 的 补 集 , 即 zs mnsn. 这 样 , 我们 得 到 (UnSn) CS masn. 反 过 来 包含 关 
系 的 证 明 , 只 需 将 我 们 的 论证 从 后 面 往 前 推 即 可 . 而 第 二 个 公式 的 证 明 完 全 类 似 . 





1.2 概率 模型 


概率 模型 是 对 不 确定 现象 的 数学 描述 . 为 了 与 本 节 讨 论 的 基本 框架 保持 一 致 ,下面 列 出 
了 它 的 两 个 基本 构成 , 并 用 图 1. 2 做 了 形象 阐释 . 


概率 模型 的 基本 构成 
。 样 本 空间 9, 这 是 一 个 试验 的 所 有 可 能 结果 的 集合 . 














。 概率 律 , 概率 律 为 试验 结果 的 集合 4( 称 为 事件 ) 确 定 一 个 非 负 数 P (4) ( 称 为 事 
件 4 的 概率 ). 而 这 个 非 负 数 刻画 了 我 们 对 事件 4 的 认识 或 所 产生 的 信念 的 
程度 . 稍 后 将 指出 概率 律 必须 满足 的 某 些 性 质 . 














样本 空间 
(可 能 结果 的 集合 ) 


图 1.2 概率 模型 的 基本 构成 


1.2.1 样本 空间 和 事件 


每 一 个 概率 模型 都 关联 着 一 个 试验 , 这 个 试验 将 产生 一 个 试验 结果 . 该 试验 的 所 有 可 能 
结果 形成 样本 空间 , 用 9 表示 样本 空 s 间 . 样本 空间 的 子 集 , 即 某 些 试验 结果 的 集合 , 称 
为 事件 1. 一 个 试验 由 什么 组 成 , 并 没有 什么 限制 . 例如 , 可 以 抛掷 一 次 硬币 , 也 可 以 抛掷 
三 次 硬币 , 或 持续 地 、 无 限 次 地 抛掷 硬币 . 然而 我 们 所 讨论 的 概率 模型 的 问题 中 , 只 涉及 
一 个 试验 . 所 以 连续 抛掷 三 次 硬币 的 试验 , 只 能 作为 一 次 试验 , 不 能 认为 是 三 次 试验 . 






































! 任 意 一 个 可 能 结果 的 集合 ， 包括 样本 空间 2 本 身 和 它 的 补 集 名, 都 可 能 作为 事件 . 当然 , 严格 来 讲 , 在 一 个 具有 不 
可 数 无 限 多 个 试验 结果 的 样本 空间 中 , 有 些 子 集 不 可 能 定义 有 意义 的 概率 . 这 涉及 测度 论 的 数学 知识 . 但 实际 上 我 们 
一 般 不 会 遇 到 这 种 特殊 的 情况 , 因此 我 们 不 必 考 虑 这 种 特殊 问题 . 
























































样本 空间 可 由 若干 个 试验 结果 组 成 , 也 可 由 无 限 多 个 试验 结果 组 成 . 从 数学 上 和 概念 上 
来 看 , 有 限 样本 空间 比较 简单 . 实际 应 用 中 , 具有 无 限 多 个 结果 的 样本 空 > 则 也 是 很 常见 
的 . 例如 , 往 一 个 方形 目标 上 掷 飞 标 , 可 将 每 个 可 能 的 弹 着 点 作为 试验 的 结 











1.2.2 选择 适当 的 样本 空间 





在 确定 样本 空间 的 时 候 , 不 同 的 试验 结果 必须 是 相互 排斥 的 , 这 样 , 在 试验 过 程 中 只 可 能 
产生 唯一 的 一 个 结果 . 例如 , 当 试 验 是 掷 一 枚 仍 子 的 时 候 , 不 能 把 “1 或 3” 定 为 一 个 试 
验 结果 , 同时 又 把 “1 或 4” 也 定义 为 一 个 结果 . 如 果 这 样 定义 了 , 那么 当 掷 得 1 点 的 时 
候 , 就 不 知道 得 到 的 是 什么 结果 了 . 


对 同一 个 试验 , 根据 我 们 的 兴趣 可 以 确定 不 同 模型 . 但 是 确定 模型 时 , 我 们 不 能 遗漏 其 样 
本 空间 中 的 任何 一 个 结果 . 也 就 是 说 在 试验 过 程 中 不 管 发 生 什么 情况 , 我 们 总 能 够 得 到 
样本 空间 中 的 一 个 结果 . 男 外 , 在 建立 样本 空间 的 时 候 , 要 有 足够 的 细节 区 分 我 们 感 兴趣 
的 事件 , 同时 要 避免 不 必要 的 烦琐 . 


例 1.1 考虑 两 个 不 同 的 游戏 , 它们 都 涉及 连续 抛 撕 10 次 人 硬币. 
游戏 1: 每 次 抛 括 便 币 的 时 候 , 只 要 出 现 正面 向 上 , 我 们 就 赢 1 元 钱 . 


游戏 2: 每 次 抛掷 硬币 时 , 我 们 都 赢 1 元 钱 , 直到 出 现 第 一 次 正面 向 上 (包括 这 一 次 ). 以 后 
每 次 抛掷 硬币 时 我 们 赢 2 元 钱 , 一 直到 第 二 次 出 现 正面 向 上 . 每 次 抛掷 得 到 正面 向 上 的 时 
候 , 以 后 每 次 抛掷 硬币 所 赢 的 钱 数 比 以 前 每 次 抛掷 硬币 所 赢得 的 钱 数 加 倍 . 


在 游戏 1 中 , 我 们 赢 的 钱 数 只 与 10 次 抛 据 中 正面 向 上 的 次 数 有 关 ; 而 在 游戏 2 中 , 我 们 的 赢 
钱 数 不 仅 与 正面 出 现 的 次 数 有 关 , 也 与 正 反面 出 现 的 顺序 有 关 . 这 样 在 游戏 1 中 , 样本 空 
闻 可 由 11 个 ( 即 0,1,2,… ,10 ) 试 验 结果 组 成 , 而 在 游戏 2 中 , 样本 空间 由 所 有 的 长 度 为 
10 的 正 、 反 序列 组 成 . 


1.2.3 序 贯 模型 


许多 试验 本 身 具 有 序 员 的 特征 . 例如 , 连续 抛掷 一 枚 硬币 , 一 共 抛 三 次 , 或 者 连续 观察 一 
只 股票 , 共 观 察 5 天 , 又 或 者 在 一 个 通信 接收 设备 上 接收 8 位 数字 . 常用 序 贯 树 形 图 来 刻画 
样本 空间 中 的 试验 结果 , 如 图 1. 3 所 示 . 





















































a 试验 的 序 贯 树 形 图 
4 | 
这 
1,3 
1,4 
3 
第 二 次 抛掷 
2 叶 - 
] 
1 1 





图 1.3 序 贯 树 形 图 示例 . 设 所 考虑 的 试验 连续 两 次 抛 手 有 4 个 面 的 人 般 子 其 样本 空间 
有 两 种 等 价 的 刻画 方法 . 在 这 个 试验 中 , 可 能 的 结果 是 全 体 有 序 对 ( .7 ), 其 中 工 表 
示 第 一 次 抛 扼 人 般 子 得 到 的 数字 , 7 表示 第 二 次 抛 丘 仍 子 得 到 的 数字 . 试验 结果 可 用 左 
图 中 的 2 维 格子 点 表示 , 也 可 以 用 右 图 中 的 序 贯 树 形 图 表示 , 后 者 的 优点 是 可 以 表示 试 
验 的 序 贯 特征 . 在 序 贯 树 形 图 中 , 每 个 可 能 的 试验 结果 可 以 用 一 个 末端 的 树叶 表示 , 或 
等 价 地 用 与 树叶 相 联 系 的 由 根部 到 树叶 的 一 个 路 径 表 示 ?. 左 图 中 阴影 部 分 代表 事件 
{(1, 4), (2, 4),(3, 4), (4, 4) }, 它 表 示 第 2 次 抛掷 得 到 4. 同一 个 事件 可 以 在 右 图 中 用 空 
心 圆 点 标示 的 叶子 集合 表示 . 注意 序 贯 树 形 图 中 的 每 一 个 结 点 可 以 代表 一 个 事件 , 这 
个 事件 就 是 由 这 个 结 点 出 发 的 所 有 的 叶子 构成 的 事件 . 例如 , 在 序 贯 树 形 图 中 用 1 标示 
的 结 点 代表 事件 {(1, 1), (1, 2), (1, 3), (1, 4)}, 即 第 一 次 抛掷 得 1 的 事件 






























































“ 当 抛 # 人 了 有 6 个 试验 结果 的 时 候 , 就 是 指 抛 括 常见 的 正六 面体 . 此 处 可 理解 为 抛掷 正四 面体 , 当 落 在 桌面 时 , 只 
面 与 桌面 接触 . 本 书 中 的 人 般 子 都 可 以 如 此 解释 . 一 一 译 者 注 






























































3 用 路 径 表示 更 能 显示 试验 的 序 贯 特征 . 一 一 译 者 注 


1.2.4 概率 律 
假定 我 们 已 经 确定 了 样本 空间 Q 以 及 与 之 联系 的 试验 , 为 了 建立 一 个 概率 模型 , 下 一 步 
就 是 要 引进 概率 律 的 概念. 直观 上 , 它 确定 了 任何 结果 或 者 任何 结果 的 集合 ( 称 为 事件 ) 
的 似 然 程度 . 更 精确 一 点 说 , 它 给 每 一 个 事件 4 确定 一 个 数 P( 人 ), 称 为 事件 4 的 概率 . 它 满 
足下 面 的 几 条 公理 . 


(1) ( 非 负 性 ) 对 一 切 事件 4 满足 P(4) >0 


(2) (可 加 性 ) 设 4 和 及 两 个 互 不 相交 的 集合 (概率 论 中 称 为 互 不 相 容 的 事件 ), 则 
它们 的 并 满足 












































P(AUB)= P(A)+P(B). 
更 一 般 地 , 若 策 ,42,… 是 互 不 相 容 的 事件 序列 , 则 它们 的 并 满足 
P(L4iU4U.…)=PC4)+P(4) 十. 
(3) ( 归 一 化 ) 整个 样本 空间 Q( 称 为 必然 事件 ) 的 概率 为 1 即 P(O) = 1 


为 了 将 概率 律 形象 化 , 可 以 把 样本 空间 中 的 试验 结果 看 成 质点 , 每 一 个 质点 有 一 个 质量 
P(4) 就 是 这 个 质点 集合 的 总 质量 , 而 全 空间 的 总 质量 为 1. 这 样 , 概率 律 中 的 可 加 性 公理 
就 变 得 很 直观 了 : 不 相交 的 事件 序列 的 总 质量 等 于 各 个 事件 的 质量 之 和 . 


概率 的 更 具体 的 解释 是 频率 .PLD) ~ 2/3 表示 ， 在 大 量 重复 的 试验 中 事件 出 现 的 频率 
的 为 2/3. 这 样 的 解释 旺 然 不 总 是 合适 的 , 但 有 时 却 很 衣 观 兄 民 . 第 5 理会 重新 讨论 这 各 
8 条 






























































概率 律 有 许多 重要 的 性 质 并 没有 包含 到 上 述 公 理 系统 中 , 原因 很 简单 , 它们 可 以 从 公理 
系统 中 推导 出 来 . 例如 , 由 可 加 性 和 归 一 化 公理 可 得 到 


= 了 P(Q) =P(QU 2)=P(0)+P(2) =1+P(G)， 
由 这 个 性 质 可 知 空 事件 ( 称 为 不 可 能 事件 ) 的 概率 为 0, 即 
P(G) = 0. 
现在 推导 另 一 个 性 质 , 令 由、42s 和 443 为 互 不 相 容 的 事件 , 重复 利用 可 加 公理 , 可 得 到 


P(A1U Az U43)=PL4iUI42U43)) 
= P(A1) +P(AsU 43) 
二 P(A1) 二 P(A) 十 P(As). 


类 似 的 推导 可 以 得 到 : 有 限 多 个 互 不 相 容 的 事件 的 并 的 概率 等 于 它们 各 自 的 概率 之 和 . 
后 面 将 讨论 更 多 的 性 质 . 


1.2.5 离散 模型 
殉 在 以 实例 说 明 构 党 概 率 律 的 方法 . 通 通常 我 们 根据 实际 试验 中 的 一 些 常识 性 假设 构造 概 




















例 1.2 考 谍 疯 据 一 枚 硬币 . 一 共有 两 种 结果 , 正面 向 上 {4 } 和 反面 向 上 {7 }. 样 本 空间 
为 吕 ={H,T}, 事件 为 


{H,T}, {H}, {7},%. 


fe 
个 结果 的 概率 是 相等 的 , 即 PU = PIT 上 由 可 加 性 公理 和 归 一 性 公理 可 知 


P({H,T}) =P({H}) +P({T) = 1 





由 此 可 推导 得 概率 律 
P({H,T}) =1, P({H})=0.5, P({T}) =0.5,，P({2}) = 0. 
显然 , 所 建立 的 概率 律 满足 三 条 公理 . 


考虑 另 一 个 试验 , 依次 抛 括 三 枚 硬币 . 试验 结果 是 由 正面 和 反面 组 成 的 长 度 为 3 的 序列 . 
样本 空间 为 














8 = {HHH,HHT,HTH.,HTT,.,THH,THT.,TTH,TTT}. 


假定 上 述 8 种 结果 的 可 能 性 是 相同 的 , 即 每 个 结果 的 概率 为 1/8. 现在 利用 三 条 公理 建立 
概率 律 . 例如 事件 


4 = 两 个 正面 同上 ; 一 个 反面 同上 }= {HHT, HTH,THH). 


利用 概率 律 的 可 加 性 公理 , 事件 4 的 概率 等 于 组 成 该 事件 的 试验 结果 的 概率 之 和 : 
P({HHT,HTH,THH}) =P({HHTY) +P({HTHY) +P({THH)}) 


相似 地 ， 0 吉 果 的 个 数 . 所 建立 的 概率 律 满足 


三 条 公理 
利用 概率 律 的 可 加 性 公理 以 及 前 面 例子 中 的 推理 方法 , 可 以 得 到 下 面 的 结论 . 


设 样 本 空间 由 有 限 个 可 能 的 结果 组 成 , 则 事件 的 概率 可 由 组 成 这 个 事件 的 试验 结果 
的 概率 所 决定 . 事件 {51, 52,… ,sn} 的 概率 是 P(si) 之 和 , 即 


Pl({s1, s2,*… ,Sn}) 二 Plsi) + Pl(s,) 十 … 十 Pls,). 


此 处 用 简单 的 记号 Plsi) 表示 事件 {si} 的 概率 , 而 不 用 正式 的 记号 Pl{si)). 本 书后 面 
都 按 这 个 简化 的 约定 书写 . 


现在 设 样 本 空间 为 2 = tay 52,… ,sn 上 并 且 每 个 试验 结果 是 等 概率 的 . 利用 归 一 化 公理 











可 知 P(s) = 1/m,i =1,2,… ,nm 得 到 以 下 定律 
离散 均匀 概率 律 ( 古 典 概 型 ) 
设 样本 空间 由 4 能 性 的 试验 结果 组 成 , 因此 每 个 试验 结果 组 成 的 事件 ( 称 为 


基本 事 介 的 要 人 是 相等 的 日 此 得 到 
含 于 事件 4 的 试验 结果 数 


Cs 


P(A) = 


现在 进一步 讨论 一 些 例 子 . 


例 1.3 考虑 连续 两 次 抛掷 一 个 有 4 个 面 的 | 4 .现在 假定 这 些 骨 子 是 均匀 
的 , 这 个 假定 意味 着 16 种 可 能 的 试验 结果 是 等 可 能 的 , 即 16 种 结果 的 每 一 种 可 能 的 结果 
(7 ，J 了 了) 出现 的 概率 为 1/16 (1 J =1 2, 3， 这 是 一 个 二 由 模型 在 计算 一 个 事件 的 概 
率 的 时 候 必须 数 清楚 这 个 事件 所 包含 的 试验 结果 数 ( 基 本 事件 数 ), 将 这 个 结果 数 除 以 
(基本 事件 总 数 ) 便 得 到 这 个 事件 的 概率 . 下 面 几 个 事件 概率 就 是 用 这 种 方法 计算 得 到 

















) 

{两 次 点 数 总 和 为 奇数 }) 

P ({ 第 一 次 点 数 与 第 二 次 点 数 相同 }) = 4/16 = 1/4， 
P ({ 第 一 次 点 数 比 第 二 次 点 数 大 }) = 6/16 = 3/8,， 


({ 两 次 点 数 吕 和 为 偶数 }) = 8/16 = 172， 
— 3716 =17/%, 


P ({ 至 少 有 一 次 点 数 等 于 4}) = 7/16. 


两 次 抛 毛 一 个 散 子 
的 样本 空间 


事件 = { 至 少 一 次 抛掷 得 4}， 
概率 =7/16 





事件 ={ 了 两 次 抛掷 的 结果 相同 让 
概率 =4/16 


图 1.4 在 连续 两 次 抛 搁 有 4 个 面 的 人 般 子 的 过 程 中 的 若干 事件 和 它们 的 概率 , 计算 依 


1.2.6 连续 模型 


知 试 验 的 样本 空间 是 一 个 连续 集合 , 其 相应 的 概率 律 与 离散 情况 有 很 大 的 差别 . 在 离散 
情况 下 , 用 基本 事件 的 概率 就 可 以 确定 概率 律 , 但 连续 情况 却 不 同 . 下 面 是 一 个 例子 . 这 
个 例子 将 离散 模型 中 的 均匀 概率 律 推广 到 连续 的 情况 . 


例 1.4 在 赌场 中 有 一 种 称 为 幸运 轮 的 赌 具 . 在 轮子 上 均匀 连续 地 刻度 , 刻度 范围 为 0 到 
1. 当 转 动 的 轮子 停止 时 , 固定 的 指针 会 停留 在 刻度 上 . 这 样 ,产生 的 试验 结果 是 [0, 1] 中 
的 一 个 数 , 指针 所 指向 的 位 置 的 刻度 . 因此 样本 空间 是 2 = [0, 让 假定 轮子 是 均匀 的 ， 
此 可 以 认为 轮子 上 的 每 一 个 点 在 试验 中 都 是 等 可 能 的 . 但 一 个 单 点 在 试验 中 出 现 的 可 能 
性 有 多 大 呢 ? 它 不 可 能 是 正 数 , 否则 的 话 , 若 单 点 出 现 的 概率 为 正 , 利用 可 加 性 公理 , 可 导 
致 某 些 事件 的 概率 大 于 1 的 充 雇 结论 . 因此 单个 点 所 组 成 的 事件 的 概率 必定 为 0. 











在 本 例 中 , 可 定义 子 区 间 [a, 肌 的 概率 为 -a. 更 复杂 的 集合 的 概率 可 以 定义 为 这 个 集合 
。 4 这 样 定义 的 概率 满足 概率 律 的 三 条 公理 , 因此 本 例 中 定义 的 概率 是 符合 要 求 的 
既 : 律 























4[0, 1] 的 一 个 子 集 5 的 长 度 定义 为 /5 和 对 于 比较 简单 的 子 集 , 可 利用 通常 的 微 积分 计算 这 个 积分 . 对 于 某 些 不 
寻常 的 集合 , 这 个 积分 可 能 没有 合适 的 定义 , 这 些 事情 属于 更 高 深 的 数学 处 理 的 问题 . 顺便 指出 , 用 长 度 刻画 概率 律 
的 合法 性 取决 于 单位 区 间 是 一 个 不 可 数 无 限 集 . 不 然 的 话 , 由 于 每 个 单 点 的 概率 为 零 , 可 导致 [0, 1] 的 概率 为 0 的 结 
论 , 这 与 概率 的 归 一 化 公理 相 了 矛盾. 



























































































































































例 1.5 罗密欧 和 朱丽叶 约定 在 茶 时 刻 见面 , 而 每 个 人 到 达 约 会 地 点 的 时 间 都 会 有 延 
迟 , 延迟 时 间 在 0 1 小 时 . 第 一 个 到 达 约 会 地 点 的 人 会 在 那儿 等 待 15 分 钟 , 等 了 15 分 钟 后 
若 对 方 还 没有 到 达 约 会 地 点 , 先 到 者 会 离开 约会 地 点 . 问 他 们 能 够 相 会 的 概率 有 多 大 ? 


考虑 直角 坐标 系 的 单位 正方 形 中 = 四 了 x [0,4 正 方形 中 的 每 个 点 的 两 个 坐标 分 别 代 表 
他 们 可 能 的 延迟 时 间 . 每 个 点 都 可 以 是 他 们 的 延迟 时 间 , 而 且 是 等 可 能 的 . 由 于 等 可 能 性 
的 特点 , 我 们 将 9 的 子 集 出 现 的 概率 定义 为 这 个 子 集 的 面积 . 这 个 概率 律 满足 三 条 概率 
公理 . 罗密欧 和 朱丽叶 能 够 相 会 的 事件 可 用 图 1. 5 中 阴影 部 分 表示 . 它 的 概率 等 于 7/16. 
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图 1.5 事件 M 代表 罗密欧 和 朱丽叶 的 相互 等 待 时 间 不 超过 15 分 钟 , W 是 图 中 阴影 
部 分 ( 见 例 1. 5), 即 


M={(z,r—y<1/40<rs<10<ys1}. 


4 的 面积 等 于 1 减 去 两 个 没有 阴影 的 三 角形 的 面积 之 和 , 即 1 一 3/ 和 (3/4 = 7/16. 因 
此 , 他 们 能 够 相 会 的 概率 为 7/16 


1.2.7 概率 律 的 性 质 





由 概率 公理 可 以 推导 出 很 多 性 质 , 下 面 列 举 若 干 性 质 . 
概率 律 的 若干 性 质 
考虑 一 个 概率 律 , 令 人 中 和 C 为 事件 . 
(a) 若 4 c B 则 P(A4) <P(B). 
(b) P(AUB)=P(A)+P(B)— P(ANB). 
(c) P(AUB)<P(A)+P(B). 
(d) P(AUBUC)=P(A)+P(A NB)+P(A NBNO). 


这 些 性 质 以 及 其 他 类 似 的 性 质 , 都 可 以 形象 化 地 用 维 恩 图 证 明 ( 见 图 1. 6). 注意 , 性 质 (c) 
可 以 推广 成 





P(4iU 4 U.U4)<< P(A;). 
£=1 








现在 证 明 这 个 推广 的 结果 . 将 性 质 (c) 用 于 事件 所 和 442U…U 4 得 到 
P(AIU As UU A) < POCA)+ P(A UU A,). 
进一步 将 性 质 (c) 用 于 事件 A42 和 443U…U 4 得 到 
PlAsU As UU A) < Pt) + POU: UA,). 


如 此 继续 下 去 , 最 后 将 诸 不 等 式 相 加 , 便 得 到 所 需 结 








图 1.6 利用 维 恩 图 直观 地 验证 概率 律 的 性 质 (a)、(b)、(c) 和 (d). 设 4cB, 则 B 
是 两 个 不 相 容 的 事件 A 和 4 B 的 并 ( 见 图 (a)). 利 用 可 加 性 公理 得 


P(B) = P(A)+P(AN B) > P(A), 
其 中 不 等 式 利用 了 概率 的 非 负 性 公理 . 性 质 (a) 得 证 . 
由 图 (b), 可 将 事件 4U 和 8 分 解 成 不 相 容 的 事件 之 并 : 


AUB= AU(ANB), B=(4ANB)U(A NB). 
利用 可 加 性 公理 , 得 到 
P(AUB)=P(A)+P(ANB),  P(B)=P(ANB)+P(A‘N B). 


第 一 式 减 去 第 二 式 并 移 项 得 到 P(A4UB)=Pl4) +P(B) 一 Pl(4NnB) 即 性 质 (b) 成 立 . 利 
用 概率 的 非 负 性 公理 得 到 P(4nmB)0, 从 而 P(4UB)<P(4)+P(B) 成 立 , 性 质 (c) 
得 证 . 

由 图 (c), 可 以 看 出 事件 4UBUC 可 以 分 解 成 三 个 互 不 相 容 的 事件 的 并 : 


AUBUC= AU(ANBU(A NB NO), 


重复 利用 可 加 性 公理 可 得 到 性 质 (qd). 


1.2.8 模型 和 现实 
概率 理论 可 以 用 来 分 析 现实 世界 的 许多 不 确定 现象 . 这 个 过 程 通常 分 成 两 个 阶段 . 


(a) 第 一 阶段 , 在 一 个 适当 的 样本 空间 中 给 出 概率 律 , 从 而 建立 概率 模型 . 在 这 个 阶段 ， 
没有 关于 建立 模型 的 一 般 规 则 , 只 要 你 建立 的 概率 律 符合 概率 的 三 条 公理 就 行 . 有 些 人 
会 怀疑 所 建立 模型 的 真实 性 . 有 时 , 人 们 宁愿 使 用 “错误 ”的 模型 , 其 理由 是 “错误 ”的 
模型 比 “ 正 确 ” 的 模型 简单 且 易 于 处 理 . 这 种 处 理 问题 的 态度 在 科学 和 工程 学 中 很 普 
裔 . 在 实际 工作 中 , 选择 的 模型 往往 既 要 准确 、 简 单 又 要 兼顾 易 操 作 性 . 此 外 , 统计 学 家 
还 依据 历史 数据 和 过 去 相似 试验 的 结果 , 利用 统计 方法 确定 模型 . 这 将 在 第 8 章 和 第 9 章 


讨论 . 


(b) 在 第 二 阶段 , 我 们 将 在 完全 严格 的 概率 模型 之 下 进行 推导 , 计算 某 些 事件 的 概率 或 
导出 一 些 十 分 有 趣 的 性 质 . 第 一 阶段 的 任务 是 建立 现实 世界 与 数学 的 联系 , 而 第 二 阶 
段 则 是 严格 限制 在 概率 公理 之 下 的 届 辑 推理 . 在 后 一 阶段 , 如 果 涉 及 的 计算 很 复杂 或 概 
率 律 的 陈述 不 简明 , 推理 和 理解 就 会 遇 到 困难 . 但 是 所 有 的 问题 将 会 有 一 个 准确 的 答案 ， 
不 会 产生 歧义 . 只 要 有 足够 高 的 能 力 , 所 有 的 困难 都 将 化 为 乌有 . 


在 概率 论 中 充满 这 样 的 “ 那 论 ”: 对 同一 个 问题 , 不 同 的 计算 方法 似乎 会 得 到 不 同 的 结 
论 . 在 这 种 模棱两可 的 概率 律 中 选 定 模型 会 导致 结论 的 不 确定 . 贝 特 朗 悖 论 是 一 个 著名 
的 例子 ( 见 图 1. 7). 
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(b) 


图 1.7 贝 特 朗 悖 论 . 该 例子 由 贝 特 朗 于 1889 年 提供 , 它 说 明 这 样 一 个 原理 : 解决 一 
个 实际 问题 的 时 候 , 必须 建立 无 歧义 的 概率 模型 . 设 在 一 个 圆 内 有 一 个 正三 角形 , 内 接 
于 圆周 . 现在 随机 地 选 定 一 个 弦 , 问 其 长 度 大 于 内 接 正三 角形 的 边 的 概率 等 于 多 少 ? 其 
aia “随机 地 选 定 ” 的 确切 定义 . 图 中 (a) 和 (b) 的 两 种 方法 导致 相互 矛盾 的 结 


在 图 (a) 中 , 取 一 半径 4 及 在 48 上 随机 地 取 一 个 点 C . 所 谓 随机 地 取 点 是 指 48 上 
所 有 的 点 具有 相同 的 机 会 被 取 到 . 通过 点 C , 作 一 条 弱 垂 直 于 48 . 由 初等 几何 的 知 





识 可 知 , 当 C 点 的 位 置 恰巧 在 4B 的 中 点 时 , 弦 的 长 度 刚 好 等 于 三 角形 的 边 长 , 而 远 
离 圆心 时 , 弦 的 长 度 减 小 . 这 样 弦 的 长 度 大 于 内 接 正 三 角形 的 边 长 的 概率 等 于 1/2. 


在 图 (b) 中 , 圆周 上 取 一 点 WV 作为 顶点 . 通过 先 画 一 条 切线 , 然后 随机 地 画 一 条 通 
过 F 的 直线 . 记 直 线 与 切线 的 夹 角 为 5$. 由 于 这 条 直线 是 随机 地 画 的 , 可 以 认为 夹 角 
$ 是 在 (0,7) 上 均匀 地 分 布 的 . 现在 考虑 这 条 直线 割 圆 得 到 的 弦 的 长 度 . 由 初等 几何 的 
知识 可 知 , 当 处 于 (7/327/3) 的 范围 内 , 弦 的 长 度 大 于 三 角形 的 边 长 . 由 于 5 取 值 
于 (0, 故 这 根 弦 大 于 内 接 正三 角形 边 长 的 概率 是 1/3 


概率 论 发 展 简 史 


。 公元 前 . 在 古 希腊 和 古 罗马 时 期 , 机 会 游戏 十 分 盛行 .但 是 这 个 时 期 关于 游戏 的 
理论 还 没有 发 展 起 来 . 究 其 原因 , 那 时 候 和 希腊 的 数字 系统 不 能 提供 代数 运算 发 
展 的 机 会 . 在 科学 分 析 基 础 上 的 概率 论 一 直 等 到 印度 和 阿拉 伯 发 明了 现代 算术 
7 以 及 文艺 复兴 时 期 产生 了 大 量 的 科学 思想 , 才 有 
儿 会 人 妥 展 . 


16 世 纪 . 卡尔 达 话 , 一 个 光彩 夺目 同时 富有 争议 的 意大利 数学 家 出 版 了 第 一 本 
关于 机 会 游戏 的 书 , 书 中 给 出 了 撕 骨 子 和 扑克 游戏 中 随机 事件 的 概率 的 正确 计 












































算 方法 . 
。17 世 纪 . 费 马 和 帕斯卡 之 间 的 通信 中 提 及 几 个 十 分 有 趣 的 概率 问题 , 推动 了 这 
个 领域 的 研究 热潮 . 








18 世 纪 . 雅 各 布 。 伯 努 利 研究 了 重复 投 币 试验 序列 并 引入 了 第 一 条 大 数 定律 . 
这 条 大 数 定律 为 联系 理论 概率 与 经 验 事实 打下 了 基础 . 后 面 的 数学 家 , 诸如 入 
尼 尔 。 伯 努 利 、 莱 布 尼 茨 、 贝 叶 斯 、 拉 格 衣 日 等 人 对 理论 概率 论 的 发 展 和 实 
际 应 用 也 作出 了 巨大 贡献 . 棣 莫 弗 引入 了 正 态 分 布 并 证 明了 第 一 个 中 心 极限 定 
理 . 
































19 世 纪 . 拉 普 拉 斯 在 他 的 一 本 很 有 影响 的 书 中 确立 了 概率 论 在 定量 研究 领域 中 
的 重要 地 位 . 同时 他 本 人 对 概率 论 作 出 了 许多 原创 性 的 页 献 , 包括 推导 了 更 一 
般 形式 的 中 心 极限 定理 . 勒 让 德 和 高 斯 将 概率 论 应 用 到 天 文 预测 , 并 且 应 用 了 
最 小 二 乘法 , 他 们 的 工作 大 大 地 拓展 了 概率 论 的 应 用 领域 . 泊 松 出 版 了 一 本 很 

影响 的 书 , 其 中 包括 了 很 多 原创 性 的 成 果 , 以 他 的 姓名 命名 的 泊 松 分 布 也 在 
其 中 . 切 比 雪夫 和 他 的 学 生 马 尔 可 夫 、 李 雅 普 诺 夫 等 研究 了 极限 定理 , 在 这 个 
领域 内 提高 了 数学 的 严格 性 的 标准 . 在 此 时 期 , 概率 论 被 认为 是 自然 科学 的 
部 分 , 它 的 主要 任务 是 解释 物理 现象 . 在 这 种 思想 的 主导 之 下 , 概率 被 解释 为 重 
复试 验 中 相对 频率 的 极限 . 


20 世 纪 . 现在 已 经 不 再 以 相对 频率 作为 概率 论 的 基础 概念 . 代 之 以 由 科 尔 黄 戈 
罗 夫 引入 的 普遍 适用 的 概率 论 公 理 系 统 . 与 数学 的 其 他 分 支 一 样 , 在 公理 系统 
的 基础 上 发 展 起 来 的 概率 论 只 依赖 于 逻辑 的 正确 性 , 而 与 实际 物理 现象 的 联系 
无 关 . 然而 , 由 于 概率 论 能 够 描述 和 解释 现实 世界 中 绝 大 部 分 的 不 确定 性 现象 ， 
因而 在 科学 和 工程 中 , 概率 论 得 到 广泛 应 用 . 
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1.3 条 件 概率 


条 件 概率 是 在 给 定 部 分 信息 的 基础 上 对 试验 结果 一 种 推断 . 下 面 是 一 些 例子 . 

(a) 在 连续 两 次 抛掷 仙 子 的 试验 中 , 已 知 两 次 抛掷 的 点 数 的 总 和 为 9, 第 一 次 抛掷 的 点 数 
为 6 的 可 能 性 有 多 大 ? 

(b) 在 猜 字 游 戏 中 , 已 知 第 一 个 字母 为 t ,第 二 个 字母 为 4 的 可 能 性 有 多 大 ? 

(c) 在 查 体 时 , 为 检查 是 否 患 茶 种 疾病 需要 检测 茶 项 指标 . 已 知 某 人 的 该 项 指标 为 阴性 ， 
问 这 个 人 得 病 的 可 能 性 有 多 大 ? 

(d) 在 雷达 显示 屏 上 出 现 一 个 点 , 这 个 点 代表 远 处 有 一 架 飞 机 的 可 能 性 有 多 大 ? 

用 更 确切 的 话说 , 给 定 一 个 试验 、 与 这 个 试验 相对 应 的 样本 空间 和 概率 律 , 假设 我 们 已 
经 知道 给 定 的 事件 8 发 生 了 , 而 希望 知道 男 一 个 给 定 的 事件 4 发 生 的 可 能 性 . 因此 ,我 


们 要 构造 一 个 新 的 概率 律 , 它 顾及 了 事件 8 已 经 发 生 的 信息 , 求 出 任何 事件 4 发 生 的 
概率 . 这 个 概率 就 是 给 定 8 发 生 之 下 事件 4 的 条 件 概率 , 记 作 Pd|Z) 


这 个 新 的 条 件 概 率 必 须 是 合格 的 概率 律 , 即 满足 三 条 概率 公理 . 同时 当 原 来 的 概率 律 为 
等 概率 模型 时 , 其 相应 的 条 件 概率 也 应 当 与 直观 相符 合 . 例如 , 在 抛 撕 般 子 的 试验 中 一 共 
有 6 种 等 概率 的 试验 结果 . 如 果 我 们 已 经 知道 试验 的 结果 是 偶数 , 即 2, 4, 6 这 三 种 结果 之 
一 发 生 . 而 这 三 种 结果 发 生 的 可 能 性 应 该 是 相等 的 . 这 样 , 得 到 


P (试验 结果 是 6 | 试验 结果 是 偶数 ) = 


人 出 , 对 于 等 概率 模型 的 情况 , 下 面 的 关于 条 件 概率 的 定义 是 合 
适 的 , 即 




































































P(A|B) = 事件 4 如 的 试验 结果 数 
事件 B 的 试验 结果 数 
将 这 个 结果 推广 , 我 们 得 到 下 面 的 条 件 概率 定义 ; 





PlANMB) 
P(B) ， 


其 中 假定 FLB) > 0. 如 果 B 的 概率 为 0, 相应 的 条 件 概率 是 没有 定义 的 . 总 而 言 之 ， 
PdZB) 是 事件 4n B 的 概率 与 事件 8 的 概率 的 比值 . 


1.3.1 条 件 概率 是 一 个 概率 律 


P(A| B) = 





对 于 给 定 的 事件 ,条 件 概率 Pl4B) 形成 了 样本 空间 上 的 一 个 概率 律 , 即 条 件 概率 满 
足 三 条 概率 公理 . 非 负 性 是 明显 的 . 又 由 于 


P(ANB) P(B) 
Pl(B)  P(B) 


说 明 归 一 化 公理 也 是 满足 的 . 现在 验证 可 加 性 . 设 和 和 Az 是 任意 两 个 不 相 容 的 事件 ， 


P(Q|B) = 








P((A1U A2) NB) 
P(B) 

_ P((A41NB)U (4 nN B)) 
P(B) 
P(A1NMmB)+ PlA2 门 B) 

P(B) 
P(ANMB) P(N B) 

P(B) P(B) 

=P(A1|B) + P(A2|B), 


此 处 第 三 个 等 式 利 用 了 事件 入 MB 和 ds 站 B 的 不 相 容 性 和 无 条 件 概率 的 可 加 性 . 可 
数 个 互 不 相 容 事件 的 可 加 性 的 验证 是 类 似 的 . 


由 于 我 们 已 经 证 实 了 条 件 概 率 是 一 个 合格 的 概率 律 , 所 有 关于 概率 律 的 性 质 对 于 条 件 概 
率 都 是 成 立 的 . 例如 将 Pt4UC) Pl(4) +P(C) 转变 成 条 件 概率 的 性 质 , 变 成 


P(AUCIB) < P(AIB)+P(C|B). 


注意 到 P(B|B) = PLB)/P(B) = 1 条件 概率 完全 集中 在 8 上 , 这 样 , 我 们 也 可 以 将 8 以 
外 的 结果 排除 掉 , 并 将 8 看 成 新 的 样本 空间 . 


现在 将 条 件 概 率 的 性 质 加 以 总 结 . 


P(A1U A2|B) = 























条 件 概 率 的 性 质 
。 设 事件 B 满足 P(B) > 0, 则 给 定 8 之 下 , 事件 4 的 条 件 概 率 由 下 式 给 出 
P(4|B) = 一 一 一 


这 个 条 件 概率 在 同一 个 样本 空间 2 上 给 出 了 一 个 新 的 (条 件 ) 概 率 律 . 凡是 现 
有 的 概率 律 的 所 有 性 质 对 这 个 条 件 概率 都 是 适用 的 . 


。 由 于 条 件 概 率 所 关心 的 事件 都 是 事件 8 的 子 事件 , 可 以 把 条 件 概率 看 成 8 上 
的 概率 律 , 即 把 事件 8 看 成 全 空间 或 必然 事件 . 


。 当 试验 的 2 为 有 限 集 , 并 且 所 有 试验 结果 为 等 可 能 的 情况 下 , 条 件 概率 律 可 由 
下 式 给 出 














事件 4 站 mB 的 试验 结果 数 
事件 B 的 试验 结果 数 


例 1.6 在 连续 三 次 抛掷 一 个 两 面 均匀 的 硬币 的 试验 中 , 我 们 希望 找到 P(A4IB), 其 中 4 
和 8 由 下 式 给 出 


4= {正面 出 现 的 次 数 多 于 反面 出 现 的 次 数 }， 8 = { 第 一 次 抛掷 得 到 正面 }. 
样本 空间 由 下 列 8 个 试验 结果 组 成 : 
Q = {HHH, HHT, HTH, HTT,THH,THT,TTH,TTT}. 


由 于 硬币 两 面 的 均匀 性 , 可 以 假定 这 8 个 试验 结果 是 等 可 能 的 . 事件 8 由 4 个 试验 结果 
HHH、HHT、HTH、H7T 组 成 , 因此 


P(A4|B) = 


E(B}=< 
S 
而 事件 4NnB 由 结果 HNUHK HHT、HTH 组 成 , 其 概率 
P(ANMB)= 和 
be 
这 样 , 得 到 
P(ANB) 3/8 3 


P(A|B) = 





P(B) 4/8 4 


由 于 所 有 的 试验 结果 是 等 概率 的 , 我 们 也 可 用 简化 的 算法 计算 PL4IB). 不 必 计 算 P(B) 
和 P(A4B), 而 直接 计算 事件 4m 和 B 中 的 基本 事件 个 数 ( 分 别 等 于 3 和 4), 相 比 即 
得 3/4. 


例 1.7 在 连续 两 次 抛掷 一 个 均匀 的 有 4 个 面 的 仍 子 的 试验 中 , 假定 所 有 16 种 试验 结果 
0 分 别 记 工 和 了 为 第 一 次 和 第 二 次 抛掷 的 结果 . 现在 希望 计算 条 件 概率 
(|B) 其 中 





A= {max(X,Y) = m}, B= {min(X,Y) = 2}, 


而 gr1, 2, 3, 4. 像 上 一 个 例子 一 样 , 可 以 有 两 种 计算 方法 . 一 种 方法 是 首先 计算 P(4nB) 
和 P(B), 然后 按 条 件 概率 的 定义 计算 P(4|B). 而 P(4nB) 和 P(B) 的 计算 方法 是 ， 数 
清楚 这 些 事件 中 的 试验 结果 的 个 数 , 再 除 以 16. 另 一 种 方法 是 直接 将 4N B 中 的 试验 结 
果 的 个 数 除 以 8 中 的 试验 结果 的 个 数 ( 见 图 1. 8). 


所 有 结果 都 具有 等 可 能 的 概率 1/16 





图 1.8 例 1.7 的 图 示 . 试验 的 样本 空间 由 连续 两 次 抛 括 有 4 个 面 的 散 子 的 所 有 可 能 结 
果 组 成 ,刻画 条 件 的 事件 = {min(X, 了 ) =2} 由 5 个 阴影 部 分 的 点 所 代表 的 试验 结果 
组 成 .事件 4= {max(X,Y) =m} 与 事件 8 的 相交 部 分 当 w = 3 或 4 时 有 两 个 试验 结 
果 , 当 wm = 2 时 只 有 一 个 试验 结果 , 当 w = 1 时 没有 公共 元 素 . 这 样 , 我 们 得 到 
2/5，m 二 3 或 4 
P({max(X,Y) = m}|B)= $41/5, m=2, 


0， m= 1. 








例 1.8 有 两 个 设计 团队 , 一 个 比较 稳重 , 记 作 C , 另 一 个 具有 创新 性 , 记 作 VW. 要求 他 
们 分 别 在 一 个 月 内 做 一 个 新 设计 . 从 过 去 的 经 验 知道 : 


(a) C 成 功 的 概率 为 2/3; 

(b) VW 成 功 的 概率 为 1/2; 

(c) 两 个 团队 中 至 少 有 一 个 成 功 的 概率 为 3/4. 

己 知 两 个 团队 中 只 有 一 个 团队 完成 了 任务 . 问 这 个 任务 是 W 完成 的 概率 有 多 大 ? 
现在 共有 4 种 可 能 的 结果 ， 























55S : 双方 成 功 FF : 双方 失败 


SF : C 成 功 ，W 失败 FS : C 失败 ，W 成 功 
现在 将 (a) 、(b) 和 (c) 写成 概率 等 式 


PLSS)+PLSP) = -~-, PLSS)+PIFS) = 2 P(SS)+P(SF)+P(FS) = 


2 
3 


结合 归 一 化 公理 


P(SS)+P(SF)+P(FS)+P(FF)=1, 





得 到 
、 5 | 1 1 ee 
P(S9) = 二， P{SF)=-, P{(FS)=—, P{(FF)=-. 
12 4 12 4 
所 求 的 条 件 概率 为 
1 
melrae mW 2 工 
PEFsltS 天 FS 有 = 本 = 汪 
4 12 


1. 3.2 利用 条 件 概率 定义 概率 模型 


在 为 实验 建立 具有 序 贯 特征 的 概率 模型 的 时 候 , 通常 很 自然 地 首先 确定 条 件 概 率 , 然后 
确定 无 条 件 概率 . 在 这 个 过 程 中 , 经 常 使 用 的 是 条 件 概率 公式 P(A B)= PLB)P(4|B). 


例 1. 9( 雷 达 探 测 器 ) 有 一 台 雷 达 探 测 设备 在 工作 , 若 在 某 区域 有 一 架 飞 机 , 雷达 以 
99% 的 概率 探测 到 并 报警 . 若 该 地 区 没有 飞机 , 雷达 会 以 10% 的 概率 虚假 报警 . 现在 假定 一 
架 飞 机 以 5% 的 概率 出 现在 该 地 区 . 问 飞机 没有 出 现在 该 地 区 而 雷达 虚假 报警 的 概率 有 多 
大 ?飞机 出 现在 该 地 区 而 雷达 没有 探测 到 的 概率 有 多 大 ? 
可 以 用 图 1. 9 的 序 贯 树 形 图 表达 这 些 事件 . 记 

A = {飞机 出 现 }， 


8 = (雷达 报警 }， 





























而 它们 的 补 集 为 
4° = {飞机 不 出 现 }， 
Fr = {雷达 未 报警 }. 


题 中 给 出 的 概率 记录 在 图 1. 9 中 描述 样本 空间 的 序 贯 树 的 相应 枝条 上 . 每 个 试验 结果 可 
用 树 形 图 的 叶子 表示 , 它 的 概率 等 于 由 根部 到 树叶 的 枝条 上 显示 的 数据 的 乘积 . 所 求 的 


P( 飞 机 不 出 现 , 报效)=P(4°B)=P(4A°)P(B|4°)=0.95x0.10=0.095， 
P( 飞 机 出 现 , 末 报 警 )=P(4NB*)=P(4)P(B°|4)=0.05x0.01=0.000 5. 





图 1.9 例 1.9 有 关 雷 达 探 测 的 事件 的 序 贯 树 形 图 表示 

由 上 例 的 启示 , 我 们 可 以 利用 序 贯 树 形 图 计算 概率 , 规则 如 下 . 

(a) 设立 一 个 序 贯 树 形 图 , 让 关心 的 事件 处 于 图 的 末端 (叶子 ), 由 根 结 点 一 直到 叶子 的 

0 点 代表 一 个 事件 . 而 我 们 所 关心 的 事件 的 发 生 是 由 根 结 点 一 直到 叶子 
一 系列 事件 发 生 的 结果 . 

(b) 在 路 径 的 每 个 分 校 上 写 上 相应 的 条 件 概 率 . 

(c) 叶子 所 代表 的 事件 是 相应 的 分 校 上 的 条 件 概 率 的 乘积 . 


EU 事件 4 发 生 的 充 要 条 件 是 一 系列 事件 4，… ,如 全 都 发 生 ， 
即 4= 4n 和 nn…n4n .4 发 生 就 是 A 发 生 , 接 着 4 发 生 等 正如 序 贰 树 形 图 上 














个 结 点 上 的 事件 顺 次 发 生 . 4 发 生 的 概率 由 如 下 规则 给 出 (也 可 见 图 1. 10). 
事件 4n4n4 事件 4in4m mn4， 





P(A,|lANA,NM ny NA, 1) 





图 1. 10 乘法 规则 的 序 贯 树 形 图 表示 . 事件 人 = N14 用 一 段 路 径 表 示 , 或 等 价 地 用 
这 一 段 路 径 的 末端 叶子 表示 , 而 路 径 上 的 每 段 树枝 表示 相应 的 事件 十，… ,省 . 在 树枝 
的 旁边 同时 注 明 相应 的 条 件 概率 . 


路 径 的 末端 相应 于 事件 和 = 所 站 和 站 … 站 ,其 概率 为 由 根部 到 该 点 的 树 校 上 标示 的 
条 件 概 率 的 乘积 


P(N A; ) = P(A1)P! Az|Al IP! As|Al NM 42)…， P(A | (Ces Ai). 


注意 , 在 图 上 每 一 个 中 间 的 点 也 代表 一 个 事件 , 例如 第 7 + 1 个 结 点 代表 事件 
二 站 二 站 下 本 .它们 的 概率 等 于 相应 的 条 件 概率 的 乘积 , 这 些 乘积 因子 都 已 在 相应 
的 树枝 下 方 列 明 . 例如 , 事件 二 门下 0 相应 于 图 上 的 第 4 个 结 点 , 其 概率 为 


P(A1NM -As N A3) = PUA1)P( A2|A1)P(UA3|A1 mn 42) 
乘法 规则 
假定 所 有 涉及 的 条 件 概率 都 是 正 的 , 我 们 有 
P(N® 1 Ai) =P(4i)P(L4o4i)P(4s4in A2) :P(A | NE Ai). 
现在 我 们 来 证 明 乘 法 规则 : 由 下 列 恒 等 式 
P(4an4i) P(L4sn4in4) P(NE1Ai) 
P(A1) P(A1N As) PIm Ai) 
再 利用 条 件 概率 的 定义 , 上 式 右 端 变 成 
P(41)P(4?|4i)P(4s|4 N A2) :P(A | me Ai). 
对 于 两 个 事件 抽 和 Az 的 情况 , 乘法 规则 就 是 条 件 概率 的 定义 . 


例 1. 10 从 52 张 扑克 牌 中 连续 无 放 回 地 抽取 3 张 牌 . 我 们 希望 求 出 3 张 牌 中 没有 红 桃 的 
概率 . 假定 在 抽取 的 时 候 , 一 堆 牌 中 的 每 一 张 牌 都 是 等 可 能 地 被 抽取 的 . 根据 对 称 性 , 52 
张 牌 中 任意 3 张 牌 的 组 合 被 抽取 的 可 能 性 都 是 相同 的 . 一 个 想法 简单 但 是 计算 拼 烦 的 方 
法 是 : 数 清楚 不 含 红 桃 的 3 张 牌 的 可 能 组 数 , 再 除 以 所 有 3 张 牌 的 可 能 组 数 . 现在 利用 试 
验 的 序 贯 树 形 图 表示 法 以 及 乘法 规则 进行 计算 ( 见 图 1. 11). 








P(N® Ai) = P(A1) 





























图 1.11 例 1. 10 中 抽取 3 张 扑 克 牌 的 试验 的 序 贯 树 形 图 表示 
定义 

hi = {第 i 张 牌 不 是 红 桃 }， i = 1,2,3. 
现在 利用 乘法 规则 





P(A1NM A N A3) = P(A )P( A2|Al JP(L4s|41 门 42)， 
计算 3 张 牌 中 没有 红 桃 的 概率 Pl 443) 由 于 52 张 牌 中 有 39 张 不 是 红 桃 , 我 们 得 到 
PL4i = 2 
由 于 第 一 次 抽出 一 张 不 是 红 桃 , 剩 下 51 张 牌 中 有 38 张 不 是 红 桃 , 因此 
38 
P(42|41) = 


最 后 , 由 于 前 面 两 张 不 是 红 桃 , 剩 下 50 张 牌 中 有 37 张 不 是 红 桃 , 这 样 


、 37 
PlAs|Al 门 42 ) 三 aN 
90 


这 些 条 件 概 率 列 于 序 贯 树 形 图 (图 1. 11) 的 相应 树 校 的 上 方 . 现在 只 需 将 路 径 上 的 (条件) 
概率 相 乘 , 得 到 


C 37 
PlAl NM A 门 43 ) 一 一 ' 一: 一. 








贯 树 形 图 上 已 经 标明 了 许多 (条 件 ) 概率, 其 他 的 一 些 事件 也 可 以 相应 地 
计算 . 例如 





P( 第 一 张 不 是 红 桃 , 第 二 张 牌 是 红 桃 ) = , 于， 
P( 第 一 、 第 二 两 张 不 是 红 桃 , 第 三 张 牌 是 红 桃 ) = = = 


例 1. 11 一 个 班 由 4 个 研究 生 和 12 个 本 科 生 组 成 , 随机 地 将 这 16 人 分 成 4 个 4 人 组 . 问 每 
个 组 分 得 一 个 研究 生 的 概率 有 多 大 ?在 这 个 问题 中 , 什么 是 随机 地 分 组 呢 ? 可 以 将 分 组 问 
题 看 成 随机 地 选 位 子 (不 妨 将 位 子 51,… ,54 看 成 第 一 组 , 而 将 位 子 55,…… ,58 看 成 第 二 
组 , 等 等 ) , 每 个 人 都 有 相同 的 可 能 性 选择 16 个 位 子 中 任意 一 个 位 子 , 当 若 干 个 位 子 被 某 
些 学 生 选 定 以 后 , 没有 选 定位 子 的 同学 以 完全 平等 的 资格 去 选择 剩 下 的 位 子 . 下 面 基于 
图 1. os 2 使 用 乘法 规则 来 计算 所 需 概 率 . 现在 设 4 个 研究 生 的 代号 为 1， 
2，3，4. 考虑 


41 = {学 生 1 和 2 分 在 不 同 的 组 }， 
42 = {学 生 1、2 和 3 分 在 不 同 的 组 }， 
4s = {学 生 1、2、3 和 4 分 在 不 同 的 组 }. 


我 们 所 求 的 概率 为 Pl-43). 利用 乘法 规则 ; 
P(A3) = P(AIN /AN A3) = P(A1)P(Az|Adi )P(As|Al NM 42). 


现在 不 妨 设 学 生 1 已 经 选 定 了 位 子 , 在 剩余 的 15 个 位 子 中 只 有 12 个 位 子 与 学 生 1 分 在 不 同 
的 组 内 . 显然 学 生 2 与 学 生 1 分 在 不 同 组 内 的 可 能 性 为 12/15, 即 





























12 
PlAi} = —. 
15 


类 似 地 , 当 学 生 1 和 学 生 2 已 经 分 在 2 个 不 同 组 以 后 , 学 生 3 只 有 选择 剩 下 14 个 位 子 中 的 8 个 
位 子 , 才能 与 学 生 1、2 处 于 不 同 的 组 . 这 说 明 





P(A2|A1) s 
(A2|A1 = 4 


在 学 生 1、2 和 3 被 分 派 在 不 同 组 的 条 件 下 , 学 生 4 只 有 在 13 个 位 子 中 选择 其 中 的 4 个 位 子 
之 一 , 才能 与 他 们 处 于 不 同 的 组 内 . 这 样 


, 4 
PlAs|Al NM AA) = CO—. 
(As|di 2) 13 


将 三 个 概率 相 乘 , 得 到 所 求 的 概率 为 


15 14 13° 
反映 这 种 试验 的 序 员 树 形 图 见 图 1. 12. 





学 生 1,2 和 3 在 
不 同 的 组 





图 1.12 例 1. 11 中 学 生 分 组 试验 的 序 贯 树 形 图 表示 

例 1. 12 ( 蒙 提 。 霍 尔 问题 , 也 称 三 门 问 题 ) 这 是 美国 有 奖 游戏 节目 中 的 一 个 经 常 出 现 
的 智力 测验 问题 . 你 站 在 三 个 封闭 的 门 前 , 其 中 一 个 门 后 有 奖品 . 当然 , 奖品 在 哪 一 个 门 
后 是 完全 随机 的 . 当 你 选 定 一 个 门 以 后 , 你 的 朋友 打开 其 余 两 扇 门 中 的 一 扇 空门 , 显示 门 
后 没有 奖品 . 此 时 你 可 以 有 两 种 选择 , 保持 原来 的 选择 , 或 改选 另 一 扇 没 有 被 打开 的 门 . 
当 你 作出 最 后 选择 以 后 , 如 果 打 开 的 门 后 有 奖品 , 这 个 奖品 就 归 你 . 现在 有 三 种 策略 : 
(a) 坚持 原来 的 选择 ; 

(b) 改选 另 一 扇 没 有 被 打开 的 门 ; 


(c) 你 首先 选择 1 号 门 , 当 你 的 朋友 打开 的 是 2 号 空门 , 你 不 改变 主意 . 当 你 的 朋友 打开 的 
是 3 号 空门 你 改变 主意 , 选择 2 号 门 . 


最 好 的 策略 是 什么 呢 ? 现 在 计算 在 各 种 策略 之 下 赢得 奖品 的 概率 . 


在 策略 (a) 之 下 , 你 的 初始 选择 会 决定 你 的 输赢 . 由 于 奖品 的 位 置 是 随机 地 确定 的 , 你 
得 奖 的 概率 只 能 是 1/3. 


























在 策略 (b) 之 下 , 如 果 奖 品 的 位 置 在 你 原来 指定 的 门 后 (概率 为 1/3), 由 于 你 改变 了 主 
意 , 因而 失去 了 获奖 的 机 会 . 如 果 奖 品 的 位 置 不 在 你 原来 指定 的 门 后 (概率 2/3), 而 你 的 
朋友 又 将 没有 奖品 的 那 一 肩 门 打开 , 当 你 改变 选择 的 时 候 , 你 改变 选择 后 所 指定 的 门 后 
一 定 有 奖品 . 所 以 你 获奖 的 概率 为 2/3. 因此 (b) 比 (a) 好 . 


在 策略 (c) 之 下 , 由 于 提供 的 信息 不 够 充分 , 还 不 能 确定 你 赢得 奖品 的 概率 . 答案 依赖 
于 你 的 朋友 打开 空门 的 方式 . 现在 讨论 两 种 情况 . 


第 一 种 情况 是 : 当 奖 品 的 位 置 是 在 1 号 门 后 , 假定 你 的 朋友 总 是 打开 2 号 空门 ( 当 奖 品 是 
在 2 号 或 3 号 门 后 的 时 候 , 你 的 朋友 没有 选择 的 余地 ). 现在 假定 奖品 是 在 1 号 门 后 (概率 为 
1/3), 你 的 朋友 打开 2 号 门 , 你 不 改 主意 , 你 得 到 奖品 . 当 奖 品 在 2 号 门 后 面 的 时 候 ( 概 率 为 
1/3), 你 的 朋友 打开 3 号 空门 , 你 改变 主意 , 你 也 得 到 奖品 . 当 奖 品 在 3 号 门 后面 的 时 候 ( 概 
率 为 1/3), 你 的 朋友 打开 2 号 空门 , 你 不 改变 主意 , 你 就 失去 了 得 奖 的 机 会 . 这 样 , 你 获奖 
的 概率 为 2/3. 说 明 在 这 种 情况 下 , 策略 (c) 与 策略 (bp) 一 样 好 . 


第 二 种 情况 是 : 假定 奖品 是 在 1 号 门 后 , 你 的 朋友 随机 地 打开 2 号 门 或 3 号 门 (概率 各 为 
1/2). 当 奖 品 在 1 号 门 后 的 情况 下 (概率 为 1/3) , 你 的 朋友 打开 2 号 门 , 此 时 按 你 的 策略 , 你 
不 改 主意 , 得 到 了 奖品 (概率 1/6). 但 是 , 如 果 你 的 朋友 打开 的 是 3 号 空门 , 此 时 你 改变 了 
主意 , 失去 了 得 奖 的 机 会 .如 果 奖 品 是 在 2 号 门 后 (概率 1/3) , 你 的 朋友 打开 3 号 空门 , 按 你 
的 策略 , 你 改变 主意 , 你 就 赢得 奖品 . 如 果 奖 品 是 在 3 号 门 后 (概率 1/3) , 你 的 朋友 打开 2 号 
空门 , 按 你 的 策略 你 不 改变 主意 , 你 就 失去 奖品 . 综合 起 来 , 在 你 的 朋友 这 种 开门 策略 之 
下 , 你 赢得 奖品 的 概率 为 1/6+1/3=1/2. 这 时 候 , 策略 (c) 比 策略 (pb) 差 . 















































1.4 全 概率 定理 和 贝 叶 斯 准则 

本 节 中 我 们 将 讨论 条 件 概率 的 某 些 应 用 .我 们 首先 引入 一 个 计算 事件 概率 的 定理 . 
全 概率 定理 
设 4 人 4 是 一 组 互 不 相 容 的 事件 , 形成 样本 空间 的 一 个 分 割 (每 一 个 试验 


结果 必定 使 得 其 中 一 个 事件 发 生 ). 又 假定 对 每 一 个 了 ,P(L4) > 0. 则 对 于 任何 事件 
B ,下列 公 式 成 立 











P(B)= P(A1NB)+:...+P(An NB) 
本 PlAi )P(B|AI ) I P(A, )P(B|A, 上 


图 1. 13 形 象 化 地 展示 了 全 概率 定理 的 内 容 并 给 出 了 证 明 . 直观 上 , 将 样本 空间 分 割 成 若 
干事 件 本 的 并 ( 和 志 ,… ,An 形成 样本 空间 的 一 个 分 割 ), 然后 任意 事件 8 的 概率 等 于 
事件 8 在 4 发 生 的 情况 下 的 条 件 概 率 的 加 权 平 均 , 而 权 数 刚好 等 于 这 些 事 件 4 的 
无 条 件 概 率 . 这 条 定理 的 一 个 主要 应 用 是 计算 事件 8 的 概率 . 直接 计算 事件 8 的 概率 
有 点 难度 , 但 是 若 条 件 概 率 PLBI4i) 是 已 知 的 或 是 很 容易 推导 计算 时 , 全 概率 定理 就 成 
为 计算 PUB) 的 有 力 工具 . 应 用 这 条 定理 的 关键 是 找到 合适 的 分 割 思 ,… ,如 ,而 合适 
的 分 割 又 与 问题 的 实际 背景 有 关 . 
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A-NMNB 


A 门 已 





图 1. 13 全 概率 定理 的 形象 化 展示 和 证 明 . 由 于 事件 抽 ,-42,…… ,4 形成 样本 空间 的 
一 个 分 割 , 事件 8 可 以 分 解 成 不 相交 的 nz 个 事件 的 并 , 即 


B=(ANMB)U:.…U (A NB). 


利用 可 加 公理 , 得 到 


P(B) = P(A1NB)+:..+P(An NB). 
利用 条 件 概率 之 定义 , 我 们 得 到 

P(AiN B)= P(L4)P(B|4i). 
将 上 式 代 入 前 一 式 中 得 到 


P(B) = P(L4i)JP(B4)+ .+P(An)P(B|A,). 


我 们 也 可 以 用 等 价 的 序 贯 树 形 图 来 说 明 全 概率 定理 ( 右 图 ). 叶子 4inB 的 概率 等 于 
由 根部 到 叶子 上 的 概率 的 乘积 PELBA4) 而 事件 8 由 图 上 显示 的 3 个 叶子 组 成 , 将 
它们 的 概率 相 加 就 得 到 PB) 


例 1. 13 你 参加 一 个 棋 类 比赛 , 其 中 50% 是 一 类 棋 手 , 你 赢 他 们 的 概率 为 0. 3;25% 是 二 类 
棋 手 , 你 赢 他 们 的 概率 是 0.4; 剩 下 的 是 三 类 棋 手 , 你 赢 他 们 的 概率 是 0. 5. 从 他 们 中 间 随 
机 地 选 一 位 棋 手 与 你 比赛 , 你 的 胜算 有 多 大 ? 


记 点 表示 你 与 7 类 棋 手 相遇 的 事件 . 依 题 意 
P(A1) = 0.5， P(A2) = 0.25， P(A3) = 0.25. 
记 8 为 你 赢得 比赛 的 事件 . 我 们 有 
P(B|A1) = 0.3， P(B|A2) = 0.4， P(B|4a) = 0.5. 
这 样 , 利用 全 概率 定理 , 你 在 比赛 中 胜出 的 概率 为 


P(B) = P(A1)P(B|A1) + P(A2)P(B|A2) +P(4s)P(B|43) 
二 0.5.0.3 十 0.25:0.4 十 0.25:0.5 
= 0.375. 


例 1.14 你 抛 撕 一 个 均匀 的 有 4 个 面 的 骨 子 . 如 果 得 到 1 或 2, 你 可 以 再 抛掷 一 次 , 否则 就 
停止 抛 括 . 你 抛 括 得 到 的 点 数 总 和 至 少 为 4 的 概率 有 多 大 ? 


记 4 为 第 一 次 抛掷 均匀 人 般 子 后 得 到 的 点 数 为 7 的 事件 . 注意 , 对 每 一 个 7 ， 

P44i) = 1/4. 记 2 为 抛掷 得 到 的 点 数 总 和 至 少 为 4 的 事件 .在 和 发 生 的 条 件 下 , 只 有 第 
二 次 抛掷 得 到 3 或 4 总 点 数 才能 至 少 为 4, 这 样 , 事件 8 的 条 件 概 率 为 1/2. 类 似 地 , 如 果 

第 一 次 抛掷 时 42 发 生 , 只 有 当 第 二 次 抛掷 得 到 2、3 或 4 时 , 事件 B 才 发 生 , 相应 的 条 件 
概率 为 3/4. 如 果 第 一 次 抛掷 时 4 发 生 , 此 时 不 容许 抛掷 第 二 次 , 在 这 种 情况 下 得 到 的 

点 数 总 和 在 4 以 下 . ?因此 

















5 如 果 第 一 次 抛 固 时 .44 发 生 , 虽然 不 容许 第 二 次 抛掷 般 子 , 但 是 你 得 到 的 点 数 总 和 已 为 4. 译 者 注 
































1 :1 
P(B|A1) =3, P(B|4s)= 3, P(B|As)=0, P(B|44) =1. 


利用 全 概率 定理 , 得 到 








在 具有 序 贯 特 征 的 试验 中 , 可 以 多 次 重复 地 利用 全 概率 定理 进行 概率 计算 . 下 面 是 一 个 








例 1.15 爱丽 丝 在 上 一 门 概率 课 . 在 每 周 周末 的 时 候 , 她 可 能 跟 上 课程 或 跟 不 上 课程 , 
如 果 她 在 茶 一 周 是 跟 上 课程 的 , 那么 她 在 下 周 跟 上 课程 的 概率 为 0. 8\( 下 周 跟 不 上 课程 的 
概率 为 0. 2) . 然而 , 如 果 她 在 某 一 周 没 有 跟 上 课程 , 那么 她 在 下 周 跟 上 课程 的 概率 变 为 
0.4( 下 周 跟 不 上 课程 的 概率 为 0. 6). 现在 假定 , 在 第 一 周 上 课 以 前 认为 她 是 能 够 跟 上 课 
程 的 . 经 过 三 周 的 学 习 , 她 能 够 跟 上 课程 的 概率 有 多 大 ? 


令 Ui 和 Bi 分 别 表示 经 过 7 周 学 习 后 跟 上 和 跟 不 上 课程 的 事件 . 按照 全 概率 定理 ， 
P(o) 可 由 下 式 给 出 


Pl(Us) = PIC2)PLCs|C2) +PLB2)PLC3|B?) = PLDC2) :0.8 + P(B2) :0.4. 
对 于 P(Uw) 和 P(B2), 又 可 以 利用 全 概率 定理 


P(U2) = P(UN)P(U2|U) + P(BI)P(U2|B1) = P(D) :0.8 + P(B1) :0.4, 
P(B2) = P(UI)P(B2|U) + P(BI)P(B2|B1) = P(U1) :0.2+P(B1) -I 


最 后 , 由 于 爱丽 丝 在 刚刚 开始 上 课 的 时 候 是 能 够 跟 上 课程 的 , 我 们 有 
P(U1)=0.8, P(BI)= 0.2 





从 前 面 三 个 方程 式 解 得 
P(U2) = 0.8:0.8 + 0.2.0.4= 0.72, 
P(B») = 0.8:0.2+0.2.:0.6 = 0.28, 


再 利用 关于 P() 的 等 式 , 得 到 
P(Us) = 0.72:0.8 + 0.28.:0.4= 0.688. 


我 们 也 可 以 为 计算 Pl(U3) 构造 一 个 试验 的 序 贯 树 形 图 . 将 随机 事件 U3 进行 分 解 , 利用 
概率 论 的 乘法 与 加 法 规则 计算 PLC3). 然而 , 有 时 候 ， 基于 全 概率 定理 的 计算 方法 更 加 方 
便 . 例如 , 我 们 希望 计算 经 过 20 周 的 学 习 以 后 , 爱丽 丝 能 够 跟 上 课程 的 概率 PlU20). 此 时 ， 
按照 序 贯 树 形 图 进行 计算 十 分 烦琐 , 因为 树 形 图 有 20 层 ,有 22 个 树叶 . 另 一 方面 , 利用 
全 概率 定理 , 得 到 递 推 公式 














P(Ui#1) = P(Ui) :0.8 + P(B:;) .0.4. 
P(Bi;,1) = P(U;) :0.2+P(B;) .0.6. 


加 上 初始 条 件 PV1) = 0.8、 PLB1) =0.2 后 , 那么 在 计算 机 上 计算 是 十 分 简便 的 . 
推理 和 贝 叶 斯 准则 


全 概率 定理 是 与 著名 的 贝 叶 斯 准则 联系 在 一 起 的 . 贝 叶 斯 准则 将 形 如 Pd4B) 的 条 件 概 
率 与 形 如 PlB|4) 的 条 件 概率 联系 起 来 . 


贝 叶 斯 准则 
,42,…… 是 一 组 互 不 相 容 的 事件 , 形成 样本 空间 的 一 个 分 割 (每 一 个 试验 


结果 必 , 定 使 得 其 中 一 个 事件 发 生 ). 又 假定 对 每 一 个 了 ,Pl44i) > 0. 则 对 于 任何 事件 
Bi 只 要 它 满足 PLB) > 0, 下 列 公 式 成 立 

















Ne 
P(B) 
P(Ai)P(B|A;) 
P(A)P(B|IA1) + :+P(A)P(B|A,) 
为 证 明 贝 叶 斯 准则 , 只 需 注意 到 P(A)P(BI4i) 与 PLAi|B)P(B) i 因为 根据 条 件 
概率 的 定义 它们 都 等 于 了 机 站 好 这 样 得 到 了 第 一 个 等 式 . 至 于 第 二 个 等 式 , 只 需 对 


PLB) 利用 全 概率 公式 即 可 . 


贝 叶 斯 准则 还 可 以 用 来 进行 因果 推理 . 有 许多 “原因 ”可 以 造成 菜 一 “结果 ”. 现在 设 
我 们 观察 到 某 一 结果 , 希望 推断 造成 这 个 结果 出 现 的 “原因 ”. 现在 设 事件 4,…… :二 
是 原因 , 而 8 代表 由 原因 引起 的 结果 . PlBI4i) 表示 在 因果 模型 中 由 “原因 ”4 造成 结 
果 8B 出 现 的 概率 ( 见 图 1. 14). 当 观 察 到 结果 8 的 时 候 ， J 结果 8B 是 由 原因 
4 造成 的 概率 PL4i|B). P(Ai1B) 为 由 于 代表 新 近 得 到 的 信息 8 之 后 生 出 现 的 概率 ， 
称 之 为 后 验 概率 , 而 原来 的 Pl4) 就 称 为 先 验 概率 . 
































a 原因 3: ANMNB 
原因 1: . 
恶性 肿瘤 其 他 原因 


原因 2: 
良性 肿瘤 


AsNM B 





图 1.14 一 个 蕴涵 于 贝 叶 斯 准则 中 的 推论 的 例子 . 我 们 在 某 病 人 的 X 光 片 中 发 现 一 个 
阴影 (事件 8 , 代表“ 结果”). 我 们 希望 对 造成 这 种 结果 的 三 个 原因 进行 分 析 . 这 三 

个 原因 彼此 不 相 容 , 并 且 造 成 这 个 结果 的 原因 一 定 是 三 者 之 一 : 原因 1 (事件 34) 是 亚 

性 肿瘤 , 原因 2 (事件 42) 是 良性 肿瘤 , 原因 3 (事件 4A43) 是 肿瘤 外 的 其 他 原因 . 假定 我 们 已 
经 知道 P(4) 和 PILE 一 23. 现 在 我 们 已 经 发 现 了 阴影 (事件 发 生 ), 利用 贝 
叶 斯 准则 , 这 些 原 因 的 条 件 概 率 为 





P(Ai)P(B|A;) 
P(A1)P(B|A1) + P(A2)P(B|A2) + P(A3)P(B|As)’ 


在 右 图 给 出 了 一 个 序 贯 树 形 图 , 可 用 序 贯 树 形 图 给 出 条 件 概 率 计 算 的 另 一 种 等 价 的 解 
释 . 图 中 第 一 个 深 灰 的 叶子 表示 恶性 肿瘤 并 出 现 阴影 , 其 概率 为 Pl-41nB), 且 所 有 深 
灰 的 叶子 表示 片子 中 出 现 阴影 , 其 概率 为 P(B). 而 由 恶性 肿瘤 造成 阴影 的 条 件 概率 
Pt) 是 两 个 概率 相 除 的 结果 
例 1.16 现在 回 到 雷达 探测 器 的 例 1. 9 和 图 1. 9. 记 

4 = {飞机 出 现 }， 

有 = { 雷 达 报 警 } . 


P(A;|B) = i = 1, 2,3. 





例 1.9 中 给 出 的 条 件 为 
P(A) = 0.05, P(B|A) = 0.99， P(B|A®)=0.1. 
在 贝 叶 斯 准则 中 令 4 = 4 和 如 = 45, 得 到 
P( 飞 机 出 现 | 雷达 报警 ) = P(4|B) 

P(A)P(BIA) 
P(A)P(B|A) + P(A°)P(B|A®) 
0.05 . 0.99 
”0.05 .0.99 + 0.95.0.1 
~ 0.342 6. 


例 1.17 现在 回 到 例 1. 13 的 棋 类 比赛 问题 . 此 处 44; 表示 你 与 7 类 棋 手 相遇 的 事件 . 
由 例 中 给 出 的 条 件 知 ， 


P(A1) = 0.5， P(4?) = 0.25， P(A3) = 0.25. 
记 B 表示 你 赢得 比赛 的 事件 , 你 胜出 的 概率 为 
P(B|A1) = 0.3， P(B|A2) = 0.4， P(B|A3) = 0.5. 
现在 假定 你 已 经 得 胜 , 问 你 的 对 手 为 一 类 棋 手 的 概率 Pl41|B) 有 多 大 ? 
利用 贝 叶 斯 准则 得 











P(A1)P(B|A1) 
P(A1)P(B|A1) + P(A2)P(B|A2) + P(A3)P(B|A3) 
0.5.0.3 
”0.5.0.3 十 0.25.0.4 十 0.25.0.5 
一 0.4. 


P(A1|B) = 


例 1. 18( 假 阳性 之 迷 )” 设 对 于 菜 种 少见 的 疾病 的 检 出 率 为 0.95: 如 果 一 个 被 检 的 人 
有 这 种 疾病 , 其 检查 结果 为 阳性 的 概率 为 0. 95; 如 果 该 人 没有 这 种 疾病 , 其 检查 结果 为 阴 
性 的 概率 是 0. 95. 现在 假定 某 一 人 群 中 患 有 这 种 病 的 概率 为 0. 001, 并 从 这 个 总 体 中 随机 
地 抽取 一 个 人 进行 检测 , 检查 结果 为 阳性 . 现在 问 这 个 人 患 这 种 病 的 概率 有 多 大 ? 


记 4 为 这 个 人 有 这 种 疾病 , 8 为 经 检验 这 个 人 为 阳性 . 利用 贝 叶 斯 准则 ， 


P(A)P(B|A) 
P(A)P(B|A) + P(AC)P(B|A®) 
0.001 . 0.95 
”0.001.0.95 十 0.999.0.05 
~ 0.018 7. 


尽管 检验 方法 非常 精确 , 一 个 经 检测 为 阳性 的 人 仍然 不 大 可 能 真正 患 有 这 种 疾病 ( 患 有 
该 疾病 的 概率 小 于 2%). 根据 《经 济 学 人 》 (7he Bconomist) 1999 年 2 月 20 日 的 报道 ,在 
一 家 美国 著名 的 大 医院 中 80% 的 受 访 者 不 知道 这 类 问题 的 正确 答案 , 大 部 分 人 回答 这 个 
经 检测 为 阳性 的 人 患 病 的 概率 为 0. 951 

















P(AIB) = 








1.5 独立 性 


1. 4 节 中 我 们 引入 了 条 件 概 率 Pl4I8) 的 概念 . 这 个 条 件 概率 刻画 了 事件 8 的 发 生 给 事 
件 4 带 来 的 信息 . 一 个 有 趣 且 重 要 的 特殊 情况 是 事件 8 的 发 生 并 没有 给 事件 4 带 来 
新 的 信息 , 它 没 有 改变 事件 4 发 生 的 概率 , 即 


P(AIB) = P(A). 


在 上 述 等 式 成 立 的 情况 下 , 我 们 称 事件 4 是 独立 于 事件 2 的 . 注意 , 由 条 件 概率 的 定义 
可 知 P(4|B) = P(L4nB)/P(B) 上 式 等 价 于 


PLANMNB)= PLAP(B). 


我 们 将 后 者 作为 事件 4 和 事件 8 相互 独立 的 正式 定义 , 其 原因 是 后 者 包括 了 

P(B) =0 的 情况 , 而 当 P(B) =0 的 时 候 , P(A4IB) 是 没有 定义 的 . 在 这 个 关系 中 4 和 2 
具有 对 称 的 地 位 .因此 4 独立 于 8B 强 涵 着 B 独立 于 4 . 这样 我 们 可 以 称 4 和 B 是 
相互 独立 的 ,或 4 和 8 是 相互 独立 的 事件 . 


人 们 容易 从 直观 判定 独立 性 . 例如 , 若 它们 分 别 是 在 两 个 不 同 的 并 且 没 有 相互 作用 的 物 
理 过 程 的 控制 下 发 生 的 事件 , 我 们 就 可 以 判定 它们 相互 独立 . 另 一 方面 ,事件 之 间 的 独立 
性 不 能 直观 地 从 样本 空间 中 的 事件 看 出 来 . 通常 认为 , 知 两 个 事件 互 不 相 容 , 就 可 以 判定 
它们 相互 独立 , 事实 上 , 恰巧 相反 , 若 事件 4 和 事件 8 互 不 相 容 , 并且 P(4)>0 和 
P(B) >0 成 立 , 则 它们 永远 不 会 相互 独立 , 因为 A4N B= 纪 从 而 

P(A4NMB)=0 才 P(A)PLB) 例如 ,4 和 A 在 P(A4) Ee 1(0,1) 的 情况 下 是 不 独立 的 (除非 

FL) =0, 或 Pl4) = 有 D), 这 是 因为 4 发 生 可 以 确切 地 告诉 你 4 一 定 不 会 发 生 ,4 的 发 
生 与 否 的 确 会 给 事件 4 的 发 生 与 否 带 来 信息 . 


例 1.19 考虑 连续 两 次 抛 撕 一 个 具有 4 个 面 的 对 称 的 般 子 , 假定 16 种 可 能 的 试验 结果 是 
等 概率 的 , 每 个 试验 结果 的 概率 为 1/16. 


(a) 事件 
4; = { 第 一 次 抛 搓 后 得 让， Bi = { 第 二 次 抛 搓 后 得 刘 
是 否 相互 独立 ?我 们 有 















































P(4in Bj) = P( 两 次 抛 搓 的 结果 是 人 , 放 ) = 二， 


Ah: 中 的 试验 结果 数 4 


中 4) 一 -六 的 试验 结果 粗 ”16 
p(Bj) B; 中 的 试验 结果 数 ”4 


总 的 试验 结果 数 ”16 


由 于 Pl 和 站 Bj) = P(A)PLBj), 可 知 4i 与 B; 是 相互 独立 的 .在 两 次 抛 撕 骨 子 的 试验 
中 , 离散 的 均匀 概率 律 (等 概率 模型 ) 蕴涵 着 两 次 抛掷 的 独立 性 . 


(b) 事件 

4= { 第 一 次 抛掷 后 得 1}， B = { 两 次 抛掷 的 总 和 为 5} 
是 否 相互 独立 ?这 个 问题 的 答案 不 是 很 明显 . 我 们 有 
1 


P(A4nB)=P( 两 次 抛 逝 的 结果 为 (1,4)) = a 


Pr) = 事件 4 中 所 含 的 试验 结果 数 _ 4 
所 有 可 能 的 结果 数 16 
事件 8 由 试验 结果 (1, 4) 、(2,3) 、(3,2) 和 (4, 1) 组 成 , 因此 


p(B) - 事件 B 中 所 全 的 试验 结果 数 _ 4 
所 有 可 能 的 结果 数 16 
这 样 ,P(A4mB)=P(JP(B), 即 4 和 B 相互 独立 . 
(C7 二 竹 
4 = { 两 次 抛掷 的 最 大 数 为 ?}， B; = {两 次 抛 撕 的 最 小 数 为 2} 
是 否 相互 独立 ?直观 上 看 这 两 个 事件 是 不 独立 的 , 因为 两 次 抛掷 的 最 小 数列 涵 着 两 次 抛 


0 例如 , 如 果 最 小 数 为 2, 最 大 数 不 可 能 为 1. 现在 用 定义 证 明 它 们 不 独 
立 . 我 们 











P(4n B) =P( 两 次 抛 构 的 结果 为 (2,2)) = 二， 


同时 
pr = < 中 的 试验 结果 数 _ 3 
总 的 试验 结果 数 16 
P(B) = 了 中 的 试验 结果 数 _ 5 


总 的 试验 结果 数 ”16- 
得 到 P(A)P(B) = 15/(16)2 PL4mnEB) 关 PCL)P(B5) 故 它们 并 不 独立 . 
最 后 , 我 们 要 指出 , 知事 件 4 和 事件 8 相互 独立 , 那么 8 发 生 , 不 会 对 4 的 发 生 与 否 


提供 任何 信息 . 同样 , 赁 直观 想象 , 2 不 发 生 , 也 不 会 对 4 的 概率 提供 任何 信息 . 事实 上 ， 
我 们 可 以 证 明 ,和 若 4 和 中 相互 独立 , 则 4 和 B* 也 相互 独立 ( 见 本 章 后 的 习题 ). 


1.5.1 条 件 独立 


前 面 已 经 提 到 , 在 给 定 茶 事件 的 条 件 下 , 诸 事件 的 条 件 概率 形成 符合 要 求 的 概率 律 . 因此 
0 论 在 条 件 概 率 律 下 的 独立 性 . 特别 地 , 在 给 定 C 之 下 , 知事 件 4 和 事件 2 
满 











P(ANBIC) =P(4lC)P(BIC)， 


则 称 4 和 8 在 给 定 C 之 下 条 件 独立 . 为 了 导出 条 件 独立 的 另 一 个 特征 , 利用 条 件 概率 
的 定义 和 乘法 规则 , 得 到 








| P(ANMBNMC 
P(ANMBIC)= Ee 
PI{C') 


加 PICJPIBICJPL4| 吾 门 C) 
加 PIC) 
=P(BIC)P(AIB NO). 
比较 前 面 两 组 等 式 的 最 右 端 , 只 要 PILEBIC) 0, 那么 PLBIC) 这 个 因子 就 可 以 消 掉 , 得 到 
P(AIB NOC) = P(A|IO), 
这 是 条 件 独 立 的 另 一 个 等 价 定义 (要 求 PLB|C) 才 中 .这 个 等 式 说 明 在 给 定 C 发 生 的 条 
件 之 下 , 进一步 假定 8 也 发 生 , 并 不 影响 事件 4 的 条 件 概率 . 


有 意思 的 是 ,4 和 两 个 事件 相互 独立 并 不 包含 条 件 独立 , 反 过 来 也 是 如 此 . 下 面 请 看 
两 个 例子 . 














例 1.20 考虑 抛掷 两 枚 均匀 的 硬币 . 这 个 试验 的 4 种 可 能 结果 都 是 等 可 能 的 . 令 
4 = { 第 一 枚 硬币 正面 同上、}， 
Hz = { 第 二 枚 硬币 正面 同上 }， 
D = {两 枚 硬币 的 试验 结果 不 同 }. 
事件 Hi 和 事件 Hs 是 相互 独立 的 . 但 是 


1 
P(H1|D)= 3, P(B|D) = 3, P(HiN HlD)=0, 


1 
2° 
这 样 , P(N H2|D) 隆 PLUHID)P(LH2|D), 从 而 王 和 H2 并 不 条 件 独立 . 


这 个 例子 可 以 推广 . 对 于 任何 概率 模型 , 记 4 和 8 是 相互 独立 的 事件 , C 是 一 个 满足 条 
件 P(C) >0、P(AIC)>0 和 P(B|C) >0 的 事件 ,并 且 4anBncC 为 空 集 . 这 样 , 由 于 
P(4NBIC)=0 和 P(4|IC)P(B|C) > 0 4 和 8 不 可 能 条 件 独立 (给 定 C ). 


例 1.21 有 两 枚 硬币 , 一 枚 蓝 的 , 一 枚 红 的 . 在 抛 扼 硬币 之 前 , 先 按 1/2 的 概率 随机 地 选 
定 一 枚 硬币 , 然后 进行 连续 两 次 独立 地 抛掷 硬币 的 试验 . 硬币 是 不 均匀 的 . 蓝 的 硬币 在 抛 
以 0. 99 的 概率 正面 向 上 . 而 红 的 那 一 枚 硬币 在 抛掷 的 时 候 以 0. 01 的 概率 正面 向 





记 8 为 选 定 蓝 色 的 硬币 的 事件 , Hi 为 第 7 次 抛掷 时 出 现 正面 向 上 . 当选 定 硬币 以 后 ， 
两 次 抛 括 的 结果 不 会 互相 影响 , Hl 和 H2 是 相互 独立 的 事 


P(HiN H2|B) = P(HI|B)P(H2|B) = 0.99 .0.99. 


男 一 方面 , Hi 和 H2 并 不 独立 . 直观 上 , 当 我 们 知道 第 一 次 抛 括 的 结果 是 正面 向 上 , 我 们 
就 想到 这 是 一 枚 蓝 色 的 硬币 , 此 时 可 以 预料 到 第 二 次 抛掷 硬币 的 结果 也 是 正面 向 上 . 数 
学 上 , 可 如 下 证 明 . 利用 全 概率 定理 , 我 们 得 到 





6 因此 两 次 抛 据 的 结果 是 不 独立 的 . 一 一 译 者 注 























| 


, ee 2 1 1 
P(H1) = P(B)P(H1|B) +P(Be)P(E|Be) = 了 -0.99 十 了 .0.01 = 了 


由 对 称 性 可 知 P( 瑟 ) = 1/2. 但 是 对 于 后 Ho, 利用 全 概率 定理 得 到 
P(HiN Ha) = P(B)P(HiN H2|B) + P(B')P(Hi mn H2|B®) 


ee 人 1 
= 二 .0.99.0.99+ 二 .0.01.0.01 ~ =. 
2 2 2 
这 样 PLUHLN 有) 和 PUBNPUB 即 三 和 H2 是 相互 依赖 的 , 即使 在 给 定 8 的 条 件 下 是 相 
互 独立 的 . 


现在 把 关于 独立 性 的 结论 总 结 一 下 . 
独立 性 
。 两 个 事件 4 和 2 称 为 相互 独立 的 , 如 果 它 们 满足 
P(4nB)=P(C4)P(B). 
若 还 满足 FL) > 0, 则 独立 性 等 价 于 
P(4|B) = P(A). 
车 4 与 8 相互 独立 , 则 4 与 号 也 相互 独立 . 


设 事件 C 满足 PFC) > 0, 两 个 事件 4 和 8B 称 为 在 给 定 C 的 条 件 下 条 件 独 
并 , 如 果 它 们 满足 


P(ANBIC) = P(AIC)P(BIC). 


若 进一步 假定 PIB 站 mC)> 0, 则 4 和 8 在 给 定 C 的 条 件 下 的 条 件 独立 性 与 
下 面 的 条 件 是 等 价 的 


P(AIBNC)= P(AIC). 

。 独 立 性 并 不 蕴涵 条 件 独立 性 , 反之 亦 然 . 
1.5.2 一 组 事件 的 独立 性 
两 个 事件 的 相互 独立 性 的 概念 能 够 推广 到 多 个 事件 的 相互 独立 性 . 
几 个 事件 的 相互 独立 性 的 定义 





设 41,… ,An 为 n 个 事件 ，} 若 它们 满足 
P (门生) = [PC 区 (02 由 的 任意 子 集 5 成 立 
i€ES iES 


则 称 二,… ,A 为 相互 独立 的 事件 . 
关于 事件 和 ,4, 443, 独立 性 条 件 归结 为 下 列 4 个 条 件 : 
P(A1NM A2) = P(41)P(42)， 
P(lA1 NM As) = P(A1)P(.A3), 
PlAz NM As) = P(A2)P(A3), 
P(A1NM As NM As) = P(A1)P(A2)P( A3). 


前 面 3 个 等 式 说 明 任 意 两 个 事件 是 相互 独立 的 ， 这 种 是 称 为 两 两 独立 . 但 是 ， 是 第 4 
也 非常 重要 它 并 不 是 前 面 3 个 等 式 的 推论 . 反 过 来 , 第 4 个 条 件 也 不 包含 前 3 
两 个 例子 说 明了 这 些 事实 . 











条 件 
py 下 面 





例 1. 22( 两 两 独立 并 不 包含 独立 ) ” 设 试验 是 抛 括 两 枚 均匀 的 硬币 . 考虑 下 列 事件 : 


= { 第 一 次 扔 得 正面 }， 
= { 第 二 次 扔 得 正面 }， 
D = { 两 次 扔 得 的 结果 不 相同 }. 


由 定义 可 知 二 和 H2 是 相互 独立 的 . 现在 证 明 二 和 D 也 是 相互 独立 的 . 注意 到 





P(ND) 14 1  ，， 
PLD 已 一 P(FH) = 





可 知 7 与 盏 是 相互 独立 的 . 与 H2 的 相互 独立 性 可 以 类 似 地 证 明 . 另 一 方面 , 由 
P(N HN D)=0#3 L 
可 知 三 个 事件 是 不 独立 的 . 


例 1. 23 (等 式 P(A41n 4zm 4s) 一 P(A1)P(A2)P(A3) 不 包含 独立 ) 
个 均匀 的 骨 子 (正六 面体 ): 


- 5 =P(H)P(H)P(D). 








设 试验 是 抛掷 两 
4 = {第 一 次 扔 得 1、2 或 3}， 
C = { 辆 次 扔 得 的 点 数 之 和 为 9}. 
我 们 有 
P(AN B) = £33 P(A)P(B) 
. 1 汉 
P(ANC)= 3 36 = P(A}P(OC'), 
Pl(BNMOC)= Es 2 二 一 = Pl(B)P(OC). 
这 样 3 个 事件 是 不 独立 的 , 并 且 任 何 一 对 事件 也 不 相互 独立 的 . 但 是 下 面 的 等 式 是 成 立 的 


1 1 1 | 
PIANBNMNG= = ==-"=-— = P(A)P(BIP(O). 
36 2 2 36 


一 组 事件 的 独立 性 的 直观 背景 与 两 个 事件 的 独立 性 是 一 样 的 . 独立 性 意味 着 下 面 一 个 事 
实 : 设 把 一 组 事件 任意 地 分 成 两 个 小 组 , 一 个 小 组 中 的 任意 个 数 的 事件 的 出 现 与 不 出 
现 , 都 不 会 带 来 男 一 个 小 组 中 的 事件 的 任何 信息 . 例如, 事件 思 42-4344 是 独立 的 事件 
组 , 则 下 面 一 类 等 式 都 是 成 立 的 


P(A1U A2|A3 N A) = PULA U 42)， 
P(A1U As|As NA4) = P(ALU A5). 








证 明 可 见 本 章 末 的 习题 . 


1.5.3 可 靠 性 


在 由 多 个 元 件 组 合成 的 一 个 复杂 系统 中 , 通常 假定 各 个 元 件 的 表现 是 相互 独立 的 . 下 面 
的 例子 说 明 做 了 这 样 的 假定 以 后 , 计算 和 分 析 将 变 得 十 分 简单 . 


例 1. 24 (网络 连接 ) ”在 计算 机 网 络 中 , 4 和 2 两 个 结 点 通过 中 间 结 点 C DD 及 
相互 连接 ( 见 图 1. 15a). 图 上 直接 连接 的 两 个 点 7 和 .表示 7 和 .之 间 有 一 个 元 件 
运行 着 , 当 这 个 元 件 失效 时 两 个 点 之 间 就 失去 连接 . 我 们 假定 7 和 J 之 间 具 有 给 定 的 
连接 概率 .假定 各 点 之 间 的 连接 与 否 独 立 于 其 他 各 点 之 间 连 接 与 否 . 问 A 和 B 之 
间 相互 连接 的 概率 有 多 大 ? 


7 图 1. 15a 中 两 个 结 点 之 间 的 箭头 旁边 的 数字 就 是 结 点 之 间 的 连接 概率 . 一 一 译 者 注 



























































图 1.15 (a) 例 1.24 的 网 络 . 箭头 劳 边 的 数字 表示 相应 的 结 点 之 间 的 元 件 有 效 的 概 
率 . (b) 在 可 靠 性 问题 中 由 三 个 元 件 组 成 的 串联 和 并 联系 统 的 图 示 


这 是 一 个 典型 的 系统 可 靠 性 的 估计 问题 . 系统 由 元 件 组 合 而 成 , 而 各 元 件 的 失效 与 否 是 
相互 独立 的 . 这 些 系 统 通常 能 够 分 解 成 若干 子 系统 , 而 每 个 子 系统 又 由 若干 元 件 组 成 , 这 
些 元 件 可 以 以 串联 方式 或 并 联 方式 相互 连接 ( 见 图 1. 15b). 


设 系统 由 元 件 1,2,… ,m 组 成 , 令 Pi 为 元 件 了 有 效 ( 运 行 ) 的 概率 . 串联 系统 只 有 在 所 
有 元 件 均 有 效 的 情况 才 是 有 效 的 . 即 














P( 串 联系 统 有 效 ) = p1p2…… pm 
在 并 联系 统 中 只 需 诸 元 件 中 有 一 个 元 件 有 效 , 系统 就 有 效 , 即 
P( 并 联系 统 有 效 ) = 1 一 P( 并 联系 统 失 效 ) 
=1— (1 — Bn)(l — py “(Ll — pin) 


现在 回 到 图 1. 15a 的 网 络 连 通 的 概率 (4 和 8 之 间 连 通 的 概率 ) 的 计算 . 我们 用 XX 一 YY 
表示 “由 了 到 了 是 连通 的 ”这 一 随机 事件 .我们 有 


P(C—B)=1-(1-P(C— E 和 E — B)) (1-P(C — F 和 F — B)) 
=1—(1— pespes)(l — PerPrs) 
=1— (1—0.8.0.9)(1 — 0.95 .0.85) 
= 0.946, 
P(4—C 和 CGC-—B)=P(4— C0C)P(C — B)=0.9.0.946 = 0.851, 
P(4—»D 和 DB)=P(4— D)P(D 一 B) =0.75.0.95 = 0.712. 
最 后 , 我 们 得 到 所 需 的 概率 
P(4—»B)=1- (1_-P(42C 和 CGC- B))(l1-P(4— DA 和 D — B)) 
=1— (1—0.851)(1 — 0.712) 
= 0.957. 


1.5.4 独立 试验 和 二 项 概率 


现在 设 试验 由 一 系列 独立 并 且 相 同 的 小 试验 组 成 , 称 这 种 试验 为 独立 试验 序列 . 当 每 个 
阶段 的 小 试验 只 有 两 种 可 能 结果 的 时 候 , 就 称 为 独立 的 伯 努 利 试验 序列 , 此 处 的 两 种 可 
能 结果 可 以 是 任何 结果 ,例如 “下 雨 ” 和 “不 下 雨 ”. 但 是 , 在 学 术 讨 论 中 , 我 们 通常 用 
抛掷 硬币 的 两 个 结果 “正面 ”和 “反面 ”(T) 作为 代表 . 


现在 考虑 连续 z 次 独立 地 抛掷 硬币 的 试验 , 每 次 抛 括 的 结果 为 正面 的 概率 为 p ,其 中 p 
是 在 0 和 1 之 间 的 数 . 此 处 “独立 ”意味 着 事件 生 , -42,…… ,如 是 独立 的 ,事件 第 4={ 第 
7 次 抛掷 的 结果 为 “正面 ”} 


我 们 可 以 用 序 贯 树 形 图 来 直观 上 刻画 独立 伯 努 利 试验 序列 . 图 1. 16 中 显示 的 是 到 3 的 情 
况 . 由 于 独立 性 , 不 管 前 面 的 抛掷 结果 是 什么 , 每 次 抛掷 得 到 正面 的 条 件 概率 都 是 p. 这 
样 , 每 个 试验 结果 (长 度 为 3 的 正面 和 反面 的 序列 ) 的 概率 只 与 序列 中 的 正面 出 现 次 数 有 
关 . 设 试验 结果 中 有 X 个 正面 , 3-k 个 反面 , 则 这 个 试验 结果 的 概率 为 斑 (L 一 站 .这 
个 公式 可 以 推广 到 任何 次 抛掷 硬币 的 试验 结果 的 计算 . 在 长 度 为 z 的 独立 伯 努 利 试 























验 序列 中 , 任何 具有 X 个 正面 和 nk 个 反面 的 试验 结果 的 概率 为 斑 (1L 站 ”其 中 K 
的 取 值 可 以 从 0 变 到 也 


现在 我 们 要 计算 概率 
p(k) 二 Pn 次 抛掷 中 有 天 次 出 现 正面 )， 


这 个 概率 在 概率 论 中 处 于 十 分 重要 的 地 位 . 由 于 任何 包含 k 次 正面 向 上 的 结果 的 概率 
都 是 以 (1 一 p)”', 我 们 得 到 
plk) = (ro 一 让 PK 








此 处 记号 


(1) = n 次 抛 挪 硬币 的 试验 中 出 现 k 次 正面 的 试验 结果 数 . 


数 (有 ) 就 是 有 名 的 二 项 式 系数 , 称 为 n 选 4 的 组 合 数 , 概率 p(k ) 就 是 有 名 的 二 项 概 
率 . 在 1. 6 节 将 介绍 计数 法 , 利用 计数 法 可 以 得 到 


n nl kx-01 
大 一 kl(n 一 有 和 一 四 a 。 72 。 


此 处 记号 局 表示 正 整 数 7 的 阶乘 ， 

il=1.2.….(i—1).i, 
按 传统 , 记 01=1. 在 本 章 末 的 习题 中 给 出 了 这 个 公式 的 男 一 证 明 . 由 于 二 项 式 概率 p(k ) 
的 总 和 必须 为 1, 这 样 我 们 得 到 二 项 式 公式 


yp (zxa =p"* 三 :二 








tt 


k=0 


HHH 概率 =y 


HHT 概率 =p?(1 一 p) 
HTH 概率 =p(1 一 p) 


HTT 概率 =p(1 一 p)? 


THH 概率 =p*(1 一 7p) 


THT 概率 =p(l1 一 p)? 
TTH 概率 =p(l1 一 pp)? 





1-p ~TTT 概率 =p(l1 一 p) 


图 1. 16 连续 三 次 抛掷 硬币 试验 的 序 贯 树 形 图 表示 . 在 树枝 上 已 经 标明 相应 的 条 件 
概率 . 作为 顺序 三 次 抛掷 硬币 的 结果 的 概率 是 在 树 形 图 的 相应 路 径 上 的 条 件 概率 的 乘 


积 


例 1. 25( 服 务 等 级 ) ” 设 一 个 互联 网 服务 器 备 有 c 个 调制 解 调 器 以 满足 个 用 户 的 

需要 . 设 在 给 定时 刻 , 每 一 个 用 户 相互 独立 地 以 概率 p 需要 与 服务 器 连接 , 当 连 接 的 时 

0 需要 有 一 个 调制 解 调 器 以 供 使 用 . 现在 的 问题 是 调制 解 调 器 不 够 用 的 概率 有 
2 


当 同 一 时 刻 需要 调制 解 调 器 的 用 户 数 多 于 c 的 时 候 , 服务 器 就 不 能 够 满足 用 户 的 需要 . 
它 的 概率 为 























和 plk), 


k=c+1 


PR) = (za 一 Pr" 


二 项 概率 .例如 二 200、p=0. 1 和 c=15, 相应 的 概率 为 0. 039 9. 


-和 











这 是 一 个 典型 的 满足 用 户 需 求 的 设备 规模 问题 . 这 批 用 户 是 一 群 上 共有 相同 需求 并 且 独 立 
行动 的 用 户 . 现在 的 问题 是 要 选择 服务 设备 的 规模 , 使 得 满足 用 户 需 求 ( 指 所 有 需要 使 用 
0 S _ A 的 概率 超过 给 定 的 门限 值 (有 时 候 , 给 概率 值 设立 若干 门限 




















1.6 计数 法 
在 计算 概率 的 时 候 , 通常 需要 数 清楚 有 关 事 件 中 的 试验 结果 数 (或 基本 事件 数 ) . 我 们 已 
经 遇 到 两 种 情况 , 需要 这 样 的 计数 法 . 


(a) 当 样 本 空间 Q 只 有 有 限 个 等 可 能 的 试验 结果 , 因此 这 是 一 个 等 概率 模型 . 事件 4 
的 概率 可 由 下 式 给 出 

















A 中 元 素 的 数目 
Q 中 元 素 的 数目 
公式 中 涉及 4 和 Q 中 元 素 的 计数 问题 . 


(b) 当 我 们 需要 计算 事件 4 的 概率 , 且 4 中 的 每 一 个 试验 结果 具有 相同 的 概率 p (p 
已 知 ) 时 , 那么 


P(4) = 














P(4) = p. (4 中 元 素 的 数目 ). 


此 时 , 也 涉及 事件 4 中 的 元 素 的 计数 问题 . 前 面 提 到 的 z 次 抛 括 硬 币 的 试验 中 出 现 K 
次 正面 的 事件 的 概率 (二 项 概率 ) 的 计算 就 是 这 样 一 类 的 计算 问题 . 这 个 概率 的 计算 过 程 
显示 , 每 个 试验 结果 的 概率 的 计算 是 比较 容易 的 , 但 是 要 数 清楚 具有 k 次 正面 向 上 的 试 
验 结果 的 个 数 , 却 有 一 些 复 杂 . 


计数 问题 原则 上 很 简单 , 但 是 真正 计算 起 来 却 不 简单 . 计数 的 艺术 属于 组 合 数 学 的 一 部 
分 . 本 节 将 介绍 一 些 计数 的 基本 准则 , 并 将 之 应 用 到 概率 模型 中 经 常 遇 到 的 计算 问题 . 


1.6.1 计数 准则 


这 是 计数 的 最 基本 的 方法 . 计数 准则 基于 分 阶段 计数 的 原则 , 因此 可 以 借助 序 贯 树 形 图 
进行 计数 . 例如 , 考虑 一 个 由 两 个 相继 阶段 组 成 的 试验 第 1 阶段 试验 的 可 能 结果 为 
q1,02, am 而 第 2 阶段 的 结果 为 2 02 on 这 样 两 阶段 的 试验 结果 为 所 有 的 有 序 对 
(ai,b),1 三 1.… ,mj 二 1，…,n, 这 些 有 序 对 的 个 数 总 和 为 mn. 这 种 计数 方法 可 以 进行 扒 
广 个 阶段 试验 的 情况 (也 可 见 图 1. 17 的 说 明 ). 























7 Ti Ths Ta 
结果 结果 结果 结果 


阶段 1 阶段 2 阶段 3 阶段 4 

图 1. 17 基本 的 计数 准则 的 序 贯 树 形 图 说 明 . 通过 > 个 阶段 进行 计数 (图 中 =4). 
第 一 个 阶段 有 "1 个 可 能 的 结果 . 前 二 1 个 阶段 的 每 一 个 可 能 的 结果 , 在 第 r 阶段 都 对 
应 着 n 个 可 能 结果 . 总 共 的 叶子 数目 为 mm2 

计数 准则 ? 

考虑 由 个 阶段 组 成 的 一 个 试验 }. 假设 : 

(a) 在 第 1 阶段 有 "1 个 可 能 的 结果 ; 

(b) 对 于 第 1 阶段 的 任何 一 个 结果 , 在 第 2 阶段 有 "2 个 可 能 的 结果 ; 


(c) 一 般 地 , 在 前 r -1 个 阶段 的 任何 一 个 结果 , 在 接 下 来 的 第 r 阶段 有 mr 个 结 
果 , 则 在 x 个 阶段 的 试验 中 一 共有 











nin2*:** ny 


个 试验 结果 . 


Co 


























国内 称 为 “计数 的 乘法 准则 ”或 “乘法 准则 ”, 这 个 名 称 更 通俗 易 懂 ， 译 者 注 






























































例 1. 26( 电 话 号 码 数 ) ”电话 号 码 由 7 位 数字 组 成 , 但 第 一 位 不 能 是 0 或 1. 一 共有 多 少 个 
不 同 的 号 码 呢 ?我 们 可 以 将 之 看 成 序 贯 地 选择 数字 的 过 程 , 但 每 次 只 选 一 位 . 总 共有 7 个 

阶段 , 第 1 个 阶段 一 共有 8 种 选择 , 从 第 2 阶段 开始 , 每 次 都 从 10 个 数字 中 任 选 一 个 . 因此 电 
话 号 码 的 个 数 为 





8.10.10...10 王 8.106. 
一 一 
6 次 


例 1. 27(n 元 素 集合 的 子 集 的 个 数 ) ”考虑 一 个 n 元 素 集合 {51,52,… ,sn}. 这 个 集合 
有 多 少 个 子 集 包括 这 个 集合 本 身 和 空 集 ) 呢 ?我 们 可 以 用 序 贯 的 方法 选择 一 个 子 集 .我 
们 可 以 对 每 一 个 元 素 做 一 个 选择 , 并 判断 它 是 否 属于 这 个 子 集 . 这 样 一 共 分 成 n 个 阶 
段 , 每 一 个 阶段 有 两 种 选择 . 这 样子 集 的 总 数 为 


2 
Nm 
nn 次 


可 以 对 这 个 计数 准则 做 一 些小 修改 . 对 于 不 同 的 第 一 阶段 的 结果 后 面 可 以 接着 不 同 的 第 
二 阶段 的 试验 , 只 要 各 个 第 二 阶段 的 可 能 结果 的 数目 相同 . 


下 面 我 们 将 讨论 从 个 对 象 中 选取 k 个 对 象 的 计数 问题 . 若 选取 的 对 象 与 次 序 有 关 ， 
则 选 出 来 的 一 组 对 象 称 为 排列 , 若 选 出 来 的 一 组 对 象 是 形成 一 个 集合 , 与 选取 的 对 象 的 
次 序 无 关 , 则 这 一 组 对 象 称 为 组 合 . 以 后 我 们 还 会 讨论 更 一 般 的 分 割 的 计数 问题 . 所 谓 分 
割 就 是 将 2 个 对 象 分 成 多 个 子 集 . 


1.6.2 卫 选 和 排列 


首先 假定 2 个 不 同 的 对 象 组 成 一 个 集合 . 令 & 是 一 个 正 整 数 ,k < n. 现在 我 们 希望 找 
出 从 个 对 象 中 顺序 地 选 出 K 个 对 象 的 方法 数 ,或 £ 个 不 同 对 象 的 序列 数 . 作为 第 一 
阶段 , 我 们 可 以 从 个 对 象 中 任意 选 一 个 . 当 第 一 个 对 象 选 定 以 后 , 在 第 二 阶段 , 我 们 只 
可 能 从 剩 下 的 六 1 个 对 象 中 选择 一 个 . 当前 两 个 对 象 选 定 以 后 , 在 第 三 阶段 , 只 可 能 从 剩 
下 的 六 2 个 对 象 中 选择 一 个 , 等 等 . 最 后 , 当 我 们 选择 第 & 个 对 象 的 时 候 , 只 能 从 剩 下 的 
(1) 个 对 象 中 选择 了 . 利用 计数 准则 , 所 有 可 能 的 序列 数 为 


n(n m1):…(nomk+1)(n mk):..……2:.1 


(no—k):.……2:1 









































n(n 一 1):…(n— 万 二 1)= 


nl 


nok) 


Be n 取 k 排列 .特别 当 f=n 的 时 候 , 简称 为 排列 此 时 所 有 可 能 的 序列 数 




















9 此 处 的 排列 、 组 合 和 分 割 在 中 英文 中 均 有 双重 意义 , 一 个 排列 是 指 个 元 素 的 一 个 顺序 , 同时 又 可 以 指 排列 数 
,具体 指 哪 种 内 容 要 看 行文. 一 一 译 者 注 









































niln—1):..2:1=nl. 


(在 n 取 k 排列 的 序列 数 公 式 中 令 太吉 并 回忆 我 们 已 经 约定 01=1. ) 
例 1.28 现在 计算 由 4 个 不 同 字母 组 成 的 字 的 个 数 . 这 是 26 选 4 的 排列 数 . 按 排 列 公 式 为 


nl 261 
一 一 = 26:25:24:23= 358 800. 
(n—k)! 22! 


排列 计数 法 可 以 与 计数 的 乘法 准则 联合 起 来 解决 更 复杂 的 排列 问题 . 


例 1.29 你 有 ma 张 古典 音乐 CD 盘 , m2 张 摇 深 音 乐 CD 盘 , ns 张 乡村 音乐 CD 盘 . 有 多 少 种 
排列 方法 将 这 些 CD 盘 排 在 CD 架 上 , 使 得 相同 种 类 的 CD 盘 是 排 在 一 起 的 ? 


我 们 将 问题 分 成 两 步 解决 . 首先 选择 CD 盘 类 型 的 次 序 , 然后 选择 每 种 CDD 盘 内 部 的 次 序 . 一 
共有 3! 种 类 型 次 序 (例如 上 古典/ 摇滚/ 乡村, 乡村 /古典 / 摇 深 等 ), 一 共有 Pil (或 m24 或 

nal ) 种 古典 (或 摇滚 , 或 乡村 )CD 的 排列 . 这 样 对 每 一 种 CD 类 型 的 排列 , 有 ?llmaln3sl 种 CD 
盘 的 排列 方式 . 从 而 总 的 排列 方法 数 为 3n1172Im3 

现在 假定 , 计划 将 每 一 类 CD 盘 中 选 出 右 张 (你 原 有 ni 张 了 类 CD) 送 给 你 的 朋友 . 当 你 

送出 盘 以 后 ， 你 的 CD 架 & 上 有 多 少 种 排列 法 ?这 个 问 题 与 没有 送出 时 的 计算 方法 是 一 样 的 ， 
只 是 将 mil 换 成 mi 选 mi 一 右 的 排列 数 即 可 . 所 以 可 能 的 排列 数 为 2 


10 在 计算 排列 方法 数 的 时 候 , 要 顾及 各 种 不 同 的 送 CD 盘 的 方法 . 一 一 译 者 注 
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1.6.3 组 合 


共有 个 人 ,希望 组 织 一 个 k 个 人 的 委员 会 . 问 有 多 少 种 不 同 的 委员 会 ?用 抽象 的 语 
言说 给 定 的 2 人 个 元 素 的 集合 中 有 多 少 种 不 同 的 & 个 元 素 的 子 集 ? 注 意 , 形成 £ 子 集 
不 同 于 形成 na 选 & 排列 , 因为 在 选择 子 集 的 过 程 中 , 选 出 来 的 & 个 元 素 之 间 是 没有 次 
序 的 . 例如 4 个 字母 4 及 C 和 D7 中 选 2 个 的 排列 有 12 种 : 


AB, AC, AD, BA, BOC, BD, CA, CB, CD, DA, DB, DO, 
而 这 4 个 字母 的 两 个 字母 的 组 合 有 下 列 6 种 : 
AB, AC, AD, BC，BD，CD. 
(因为 在 组 合 中 元 素 是 没有 次 序 的 , 48 和 B4 是 无 法 区 别 的 . ) 


在 上 面 的 例子 中 , 组 合 实际 上 是 由 排列 归并 而 成 的 . 例如 , 从 组 合 的 观点 看 来 , 48 和 PB4 
是 不 可 区 分 的 , 它们 都 对 应 于 组 合 4 这 种 推导 方法 可 以 推广 到 一 般 的 情况 : 在 个 

对 象 取 k 个 对 象 的 组 合 中 , 每 一 个 组 合 对 应 了 k! 个 不 同 的 排列 . 这 样 nz 个 对 象 取 X 
个 对 象 的 排列 数 呈 刀 一 外 等 于 组 合 数 乘 以 kK! .因此 , 从 n 个 元 素 的 集合 中 选 K 个 
元 素 的 组 合 数 为 




















nl 


kl(n es | ; 


现在 回 到 二 项 式 系数 (#) 的 表达 式 . 二 项 式 系数 定义 为 n 次 抛掷 硬币 时 , 正面 向 上 次 数 
为 £ 的 可 能 的 试验 结果 数 . 我 们 注意 到 , 确定 一 个 & 次 向 上 的 试验 结果 等 价 于 在 所 有 
7 次 抛掷 结果 (正面 向 上 或 反面 向 上 ) 选 出 《 次 (正面 向 上 ) 来 .因此 二 项 式 系数 刚好 等 
于 从 个 元 素 选择 4k 个 元 素 的 组 合 数 . 这 样 


n nl 
kj kln ok)! 


例 1.30 A、 有 A CC 和 7 四 个 字母 中 选 出 两 个 字母 的 组 合 数 为 


4 4! 
G) 一 5 = . 
这 个 结果 与 前 面 列举 的 组 合 数 相同 . 


值得 指出 的 是 , 有 时 候 利 用 计数 法 能 够 导出 一 些 在 代数 上 很 难 证 明 的 公式 . 一 个 例子 是 
1.5 节 讨论 的 二 项 式 公式 

















水， (zxa 一 P)n = 


k=0 


作为 特殊 情况 , 当 p=1/2 时 , 公式 变 成 


上 式 还 可 以 得 到 新 的 解释 , 由 于 () 是 h 元素 集合 的 所 有 《 元 豆子 集 的 个 数 ,将 由 
对 所 有 的 k 求 和 得 到 这 个 集合 的 所 有 子 集 的 个 数 , 而 这 个 数 刚好 等 于 2 


例 1.31 设 有 一 群 人 , 一 共有 个 . 现在 要 组 织 一 个 个 人 爱好 俱乐部 , 俱乐部 由 一 个 主 
任 和 若干 成 员 组 成 (成 员 信 数 可 为 0)， . 问 有 多 少 种 方式 组 成 一 个 俱 乐 部 ?我 们 用 两 种 不 同 
的 计数 法 计算 , 从 而 得 到 一 个 代数 恒等式 . 


首先 挑选 一 个 俱乐部 主任 , 一 共有 种 不 同 的 选 法 . 然后 从 剩 下 的 六 1 个 人 员 中 挑选 一 
般 成 员 . 实际 上 , 这 六 1 人 中 任意 一 个 子 集 ， 配 上 主任 , 就 成 为 一 个 俱乐部 . 而 不 同 的 子 集 
个 数 共 有 2 个 . 这 样 一 共有 n2”! 种 不 同 的 方式 组 成 一 个 俱 乐 首 


另外 , 我 们 可 以 这 样 考虑 此 问题 . 首先 选择 k 个 人 组 成 一 个 & 人 集体 , 然后 从 中 选择 一 
个 全 组 成 一 个 k 人 俱乐部 . 这 样 一 共有 “(A) 种 方式 组 成 一 个 x 人 俱乐部 . 对 所 有 
的 尺 (k 二 1,… ,将 组 成 《 人 俱乐部 的 方式 数 相 加 ， 就 得 到 组 成 俱 和 部 的 方式 数 . 由 

此 得 到 代数 恒等式 




















二 全 -or 
k=1 天 


1.6.4 分 割 


注意 到 组 合 是 从 n 元 素 集合 中 选 出 的 一 个 元 素 个 数 为 £ 的 子 集 , 因此 可 将 一 个 组 合 看 
成 将 集合 分 成 两 个 子 集合 的 一 个 分 划 , 其 中 一 个 子 集 的 元 素 个 数 为 《， 另 一 个 子 集 为 补 
集 , 其 元 素 的 个 数 为 zk . 现在 我 们 考虑 将 一 个 集合 分 成 多 于 两 个 集合 的 分 割 . 


给 定 一 个 元 素 个 数 为 的 集合 , 并 设 nl;ma，… ,nr 为 非 负 整数 , 其 总 和 为 n . 现在 考 

虑 将 具有 个 元 素 的 集合 分 解 成 上 个 不 相交 的 子 集 , 使 得 第 7 个子 集 元 素 个 数 刚好 
是 mi 问 一 共有 多 少 种 分 解 的 方法 . 

现在 分 阶段 每 次 确定 一 个 子 集 . 一 共有 (m) 种 方法 确定 第 一 个 子 集 . 当 第 一 个 子 集 确定 
以 后 , 只 剩 下 7 一 m1 个 元 素 可 以 用 来 确定 第 二 个 子 集 . 这 样 在 确定 第 二 个 子 集 的 时 候 ， 


一 共有 ( ”mw ') 种 方法 , 以 此 类 推 . 对 > 个 阶段 的 选择 过 程 利 用 计数 准则 , 得 到 总 共 的 
选择 方法 数目 为 


也 nC Nl nNn—Nn1i— ny 也 一 111 一 "一 了 7 
了 1 772 723 ny 


nl (nC— ni1)! (nC—ni—…— nr1)! 
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经 过 消去 化 简 , 上 式 等 于 
nl 


nilnol: nr! 
这 个 数 称 为 多 项 式 系数 , 并 且 用 下 列 记号 表示 : 
[人 


例 1. 32 (相同 字母 异 序 词 ) 将 TATT00 这 个 英文 单词 的 字母 颠倒 排列 可 得 到 多 少 个 
不 同 的 单词 ?这 里 有 6 个 位 置 供 这 些 字母 去 填充 . 每 一 种 重新 排列 方式 可 以 看 成 一 个 6 个 
位 置 的 分 割 , 分 割 的 一 个 小 组 的 大 小 为 3, 用 于 放置 字母 T, 另 一 个 小 组 的 大 小 为 2, 用 于 
放置 字母 0, 第 三 个 小 组 的 大 小 为 1, 用 于 放置 字母 A. 这 样 一 共有 


61! 1:2:.:3:4:5:6 
112131 1:.1-.2.:1 3 

















个 单词 . 


也 可 以 用 另 一 种 方法 导出 这 个 结果 (这 种 方法 也 可 以 用 于 导出 多 项 式 系数 的 公式 , 见 本 

章 后 习题 ). 我 们 将 TATT00 写成 AT2T30102 的 形式 , 假装 这 6 个 字母 是 不 相同 的 . 这 
样 一 共有 61! 种 不 同 的 排列 , 然而 有 3! 种 T1T2Ts 的 排列 和 2! 种 O102 的 排列 形成 同一 个 
单词 , 这 样 当下 标 去 掉 以 后 , 一 共有 61!/(3121) 个 不 同 的 单词 . 





例 1. 33 一 个 班 由 4 个 研究 生 和 12 个 本 科 生 组 成 . 将 这 个 班 随机 地 分 成 4 个 小 组 , 每 组 4 
人 . 问 每 个 组 刚好 包含 一 个 研究 生 的 概率 有 多 大 ?这 个 问题 就 是 1. 3 节 例 1. 11 的 问题 .但 
是 现在 我 们 要 利用 计数 方法 解答 这 个 问题 . 


首先 应 该 确定 样本 空间 . 我 们 将 分 小 组 的 问题 设想 成 将 16 个 学 生 随机 地 放 入 4 个 房间 ， 
个 房间 4 个 人 , 这 是 一 个 分 割 问题 . 由 于 16 个 人 是 随机 地 分 派 到 各 个 房间 里 去 的 , 故 每 个 
分 割 的 概率 是 相等 的 . 于 




















11 这 样 ,样本 空间 由 全 体 分 割 组 成 , 并 且 概率 律 是 等 概率 的 . 一 一 译 者 注 


按照 分 割 的 定义 , 分 割 数 为 












































16 16! 
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现在 考虑 每 一 个 房间 只 分 配 一 个 研究 生 的 分 割 数 . 我 们 可 以 分 两 个 阶段 完成 学 生 的 分 派 


问题 . 


(a) 第 一 阶段 , 将 4 个 研究 生 分 派 到 4 个 房间 中 去 , 每 个 房间 1 人 . 这 是 一 个 只 有 4 个 人 的 分 
割 问题 , 分 割 数 为 4!. 


(b) 第 二 阶段 , 将 12 个 本 科 生 分 派 到 4 个 房间 中 去 , 每 个 房间 分 派 3 人 . 这 也 是 一 个 分 割 问 
题 , 分 割 数 为 
12 12! 
[| ”31313131 


利用 乘法 准则 , 每 个 房间 分 派 1 个 研究 生 和 3 个 本 科 生 的 方法 一 共有 
41121 
3131313! 
种 . 这 样 , 按 古 典 概 型 的 定义 , 每 个 小 组 分 派 到 一 个 研究 生 的 概率 为 


4!121 
3131313! 
161 
4141414! 























经 过 化 简 , 这 个 数 为 
12.8.14 
15.14.13- 


这 个 结果 与 例 1. 11 的 结果 相符 合 . 
下 面 是 计数 法 的 汇总 . 
计数 法 汇总 


7 个 对 象 的 排列 数 ， 1. 
7 个 对 象 中 取 k 个 对 象 的 排列 数 ，71/(7 一 各)! 


nl 


个 对 象 中 取 大 个 对 象 的 组 合 数 ，( 各 “RAT 
将 /个 对 象 分 成 个 组 的 分 割 数 , 其 中 第 7 个 组 具有 ni 个 对 象 


n nl 
721,722,-- ,Nr nilnol: :nr! 








1.7 小 结 和 讨论 

解决 一 个 概率 问题 通常 分 成 下 列 几 个 步 又 : 

(a) 描述 样本 空间 , 样本 空间 是 一 个 试验 的 所 有 可 能 的 试验 结果 的 集合 ; 
(b) (可 能 不 直接 地 ) 列 出 概率 律 (每 个 事件 的 概率 ) ; 

(c) 计算 各 种 事件 的 概率 和 条 件 概率 . 


概率 律 必 须 满足 非 负 性 、 可 加 性 和 归 一 性 公理 . 对 于 试验 结果 的 总 数 有 限 的 重要 特例 ， 
我 们 只 需 列 出 每 一 个 可 能 试验 结果 的 概率 , 而 任何 事件 的 概率 的 计算 , 只 需 将 组 成 这 个 
事件 的 所 有 可 能 的 试验 结果 的 概率 相 加 , 就 得 到 这 个 事件 的 概率 . 


给 定 一 个 概率 律 , 我 们 经 常 需要 计算 条 件 概 率 , 这 是 因为 条 件 概率 涉及 得 到 部 分 信息 以 
后 的 概率 计算 问题 . 我 们 也 可 以 将 条 件 概率 看 成 特殊 的 概率 律 , 在 这 个 概率 律 之 下 , 只 有 
包含 于 由 条 件 所 确定 的 事件 内 的 事件 才 有 正 的 条 件 概 率 . 条 件 概率 可 以 通过 公式 
0 P(4NB)/P(B) 进行 计算 .然而 在 应 用 中 , 更 常见 的 是 利用 条 件 概 率 来 计算 无 
甩 S -入 。 


我 们 已 经 用 例子 说 明了 计算 概率 的 如 下 三 种 方法 . 


(a) 计数 法 . 这 种 方法 适用 于 古典 概 型 , 即 试验 只 有 有 限 个 可 能 的 试验 结果 , 而 试验 结果 
是 等 可 能 的 . 为 计算 一 个 事件 的 概率 , 只 需 数 清楚 这 个 事件 中 的 基本 事件 个 数 , 再 除 以 基 
本 事件 总 数 , 就 得 到 这 个 事件 的 概率 . 


(b) 序 贯 树 形 图 方法 . 在 试验 具有 序 贯 特征 的 情况 下 , 可 以 利用 序 贯 树 形 图 方法 . 这 种 方 
法 的 关键 是 必须 计算 相应 树 校 事件 的 条 件 概 率 . 这 些 条 件 概率 或 者 是 已 知 的 或 者 是 利用 
各 种 方法 (包括 计数 法 ) 计算 得 到 的 . 利用 乘法 规则 将 相应 路 径 上 的 事件 的 条 件 概率 相 
乘 , 就 可 以 得 到 相应 事件 的 概率 . 


(c) 全 概率 公式 . 利用 全 概率 公式 可 以 计算 事件 A 的 概率 PE) 关键 是 要 找到 样本 空间 
的 一 个 分 割 4i,i = 1,… ,n, 使 得 相应 的 概率 P(A4) 和 条 件 概率 PILE 十 ) 为 已 知 或 比较 
容易 计算 , 然后 利用 全 概率 公式 计算 PLB). 


最 后 , 我 们 还 讨论 了 若干 问题 , 这 些 问题 或 者 扩大 了 概率 论 的 应 用 范围 , 或 者 提高 了 利用 
主要 定理 进行 计算 的 能 力 . 我 们 引入 了 贝 叶 斯 准则 , 这 是 概率 论 的 一 个 重要 应 用 领域 . 同 
时 , 为 了 加 强 计 算 能 力 , 我 们 讨论 了 计数 方法 的 一 些 基 本 规则 , 包括 组 合 、 排 列 等 . 

























































































习题 
1.1 节 集合 


1. 考虑 掷 一 个 具有 6 个 面 的 般 子 . 令 事 件 4 为 掷 出 偶数 . 令 表示 点 数 大 于 3 的 事件 . 
验证 下 面 的 德 摩根 公式 : 


(AUB)=ANB:, (A4NB)=A°UB:. 
2. 设 4 和 B 是 两 个 集合 . 


(a) 证 明 











A=(ANB)U(ANMB), B=(ANMB)U(A NB'). 
(b) 证 明 
(A4NMB) =(ANBU(ANMB)U (ANB'. 


(c) 考虑 括 一 个 均匀 的 、 具 有 6 个 面 的 角子. 令 事件 4 为 掷 出 奇数 . 令 B 表示 点 数 小 于 
4 的 事件 . 求 出 (b) 中 公式 两 边 的 集合 并 验证 集合 等 式 . 


3.* 证 明 恒 等 式 








AU (NBn) = ML (AU B.,). 


解 若 x 为 左边 的 集合 的 元 素 , 则 有 两 种 可 能 性 . (i)z e 4, 此 时 对 一 切 m >1 
rE AU Bu 从 而 x 属于 等 式 右边 的 集合 ; (ii) 对 一 切 n 之 lze Bo 此 时 对 一 切 nn 之 1 
ze 4U B,, 这 样 ,x 也 属于 等 式 右边 的 集合 . 


反 过 来 , 若 x 是 等 式 右边 的 集合 的 元 素 , 说 明 对 一 切 n 三 1,TE 4UBn. 若 zzE 4 显然 
X 是 等 式 左边 的 集合 的 元 素 . 若 了 所 此 时 , 对 一 切 n 三 1x 必须 是 Bn 的 元 素 , 这 再 
一 次 证 明 x 是 等 式 左边 的 集合 的 元 素 . 


4.* 康 托 尔 的 三 角 论证 方法 “指出 单位 区 间 [0, 1] 是 不 可 数 集合 , 即 [0, 1] 中 的 数 不 可 
能 排 成 一 个 数列 . 


解 ” 每 一 个 [0, 1] 区 间 中 的 数 , 都 有 十 进 制 表达 式 , 例如 1/3 = 0.3333…. 注意 , 绝 大 部 分 
数 具 有 唯一 的 表达 式 , 但 也 有 例外 ,例如 1/2 可 以 表 为 0.5000.… 或 0.4999… 可 以 证 明 

| 的 例外 , 即 只 有 结尾 是 无 限 个 0 的 数 或 结尾 是 无 限 个 9 的 数 才 有 两 种 表达 

工 N。 


现在 用 反 证 法 . 假设 所 有 的 [0, 可 区 间 中 的 数 , 可 以 排 成 一 列 , 1,72,73,…, 即 [0, 1] 区 间 
中 的 每 一 个 数 都 在 这 个 序列 中 . 考虑 zn 的 十 进 制 表达 式 














im 





ee 
Tn = 0.ananan 





其 中 mm 为 集合 {0,1,… :中 中 的 一 个 数 . 现在 构造 一 个 数 j 它 的 第 ” 位 小 数 取 成 1 或 
2, 但 是 它 不 等 于 zn 的 第 位 数 ox,7=1,2,…, 由 于 yy 的 第 位 与 zn 的 第 w 位 数 
不 同 , y 与 zn 是 不 同 的 . 这 样 了 不 可 能 在 ,72,73,"…… 中 , 与 假设 矛盾 . 从 而 [0, 1] 区 
间 中 的 数 是 不 可 数 的 . 


1.2 节 概率 模型 


5， 在 一 个 班 上 , 有 60% 的 学 生 是 天 才 , 70% 的 学 生 喜 欢 巧克力 , 40% 的 学 生 既 是 天 才 又 喜欢 
0 同学 , 请 问 他 既 不 是 天 才学 生 又 不 爱好 巧克力 的 概 
率 有 多 大 ? 


6. 一 个 有 6 个 面 的 散 子 是 这 样 设计 的 :在 抛 撕 角 子 的 时 候 , 所 有 侦 数 面 出 现 的 概率 比 奇 
数 面 出 现 的 概率 大 一 倍 ,不同 的 偶数 面 出 现 的 概率 是 相同 的 , 不 同 的 奇数 面 出 现 的 概率 
也 是 相同 的 . 现在 将 骨 子 抛掷 一 次 , 为 这 个 试验 建立 概率 律 , 并 求 出 点 数 小 于 4 的 概率 . 


7， 将 一 个 有 4 个 面 的 角 子 持续 地 抛 撕 若 干 次 , 直到 第 一 次 出 现 偶 数 面 为 止 . 这 个 试验 的 
样本 空间 是 什么 ? 


8， 你 参加 一 个 象棋 比赛 , 必须 与 三 个 对 手下 象棋 . 按 规定 , 只 有 赢 两 场 比赛 , 才 算 你 得 
胜 . 假定 , 与 每 个 对 手 比赛 的 时 候 , 你 赢 棋 的 概率 是 已 知 的 . 另外 , 你 成 为 得 胜 者 的 概率 与 
比赛 的 次 序 有 关 . 证 明 将 三 位 比赛 对 手中 的 最 弱者 排 在 第 二 位 的 时 候 , 你 成 为 得 胜 者 的 
概率 最 大 , 而 与 其 他 两 位 对 手 的 比赛 次 序 无 关 . 


9， 样 本 空间 Q 的 分 割 是 一 组 互 不 相 容 的 事件 组 {51,… ,s, 满足 条 件 = UE1S， 
(a) 证 明 对 任何 事件 4 ,下 式 成 立 






























































P(A) = > P(ANM Si). 
i=] 


(b) 利用 (a) 的 结论 , 证 明 对 任何 事件 4、B 和 C ,下 式 成 立 
P(A) = PLANM B)+P(ANMC+P(ANB NMC)— PLAN BNMO). 
10. 证 明 公 式 
P((ANMNBTYU(ANMB)) = P(A)+P(B) — 2P(ANM SB), 
这 个 公式 给 出 4 和 8 中 间 恰 有 一 个 事件 发 生 的 概率 . (与 公式 
P(A4UB)=P(4)+P(B)-P(4nB) 相 比 较 ,后 者 给 出 4 和 8 中 间 至 少 有 一 个 事件 发 
生 的 概率 .) 
11. * 邦 费 罗 尼 不 等 式 . 
(a) 对 于 任何 两 个 事件 4 和 8 ,证 明 
P(ANMB)> P(A)+P(B)—1. 





(b) 将 上 式 推广 到 个 事件 和 ,442,… ,An 的 情况 , 证 明 
P(A 门 4 门 …: 门 An) > P(A1) 下 Pl.A2) Cy ek P(A,) SS (n [天 


解 ”由 等 式 PL4nB)=P(4+P(B)-PL4nB) 和 不 等 式 P(4UB)<1 立即 可 得 (a). 
至 于 (b)， 和 用 德 大 根 公 浆 可 得 到 下 面 的 和 


1 一 Pinmna4znm EN Ar) = P(N A N-. eA 


=P(ASU ASU-.-.-.U 4e) 
<P( en 45) 十 .… 十 P(4c) 

= (1—P(A1))+(1— P(A2))+…+ (1—P(A4,)) 
=n—P(A)— P(A42)—…… — P(An), 


由 这 个 公式 可 得 到 (b). 


12.* 容 斥 恒等式 . 将 下 面 的 公式 推广 
P(AUB)=P(A)+P(B)—P(ANB). 


(a) 设 4、 及 C 为 三 个 事件 , 则 下 列 恒等式 成 并 


P(AUBUC)= P(A)+P(B)+P(C) -P(ANB)- PIANC -PIBN 
C+P(ANBNO). 


(b) 设 二,-42,… ,An 为 n 个 事件 . 记 51= {ll <i<n},52 = {(i1,i2)|1 < <?i <n}, 
一 般 地 , 令 Sm 为 满足 条 件 1 < <i2<…<im<n 的 wm 维 指标 (11,… ,im) 的 集合 
则 下 列 恒等式 成 立 


P(UR_i4k) = >_P(4i)— > P(A nN 4;,) 


iES!1 (ii,i2)eS2 
+ 》 P(AiNAsNAs) +(-1)"™ P(NE1A:). 
(il,ia,is)ESs 


解 (a) 利用 公式 P(X NY) =P(X)+P(Y) -P(X NnY) 和 集合 等 式 
CuBInc=(4nc)u(Bnc) 得 到 


P(AUBUC)=P(AUB)+P(CO) — P((AU B)NCO) 

= P(AUB)+P(C)— P(ANC)IU(BNMO)) 

= P(AUB)+P(C pe —P(BNMC)+P(ANBNMO) 
P(A)+P(B)— P(ANB)+P(CO) — P(ANC)—-P(BNO) 
+P(LANMBNMO) 

= P(A)+P(B)+P(O) — P(ANMB)— P(ANMOC)—P(BNO) 
+P(LANMBNMOC). 


(b) 利用 归纳 法 . 其 主要 推断 部 分 可 以 模仿 (a) 中 的 推导 步 又 . 另 一 种 证 明 方法 可 以 参考 
第 2 章 末 的 习题 . 








13.* 概率 的 连续 性 . 


(a) 设 4 4 是 一 个 单调 递增 的 事件 序列 , 即 对 每 一 个 2 ,An C Anii 令 

4= UP 证 明 了 一 加 EC) 提示 ， 将 4 表示 成 可 数 无 限 个 不 相交 的 事件 之 
和 |. 

(b) 设 身 ,4o,… 是 一 个 单调 递减 的 事件 序列 , 即 对 每 一 个 2 ,An 3 4 令 

4= nd 证明 工 全 一 DEC) 提示 : 将 (a) 的 结果 应 用 于 事件 的 补 集 . 

(c) 考虑 一 个 概率 模型 , 其 样本 空间 是 实数 集合 . 证 明 


lim Pll[n, ce)) = 0. 
nn—+00 





P([0, 00)) = lim P([0,n]) 和 





解 (a) 令 Bi 一 入 ,对 n>2, 令 有功 = 如 mn 必 -这 样 定义 的 事件 序列 B 是 互 不 相 
容 的 事件 序列 , 并 且 U1Bk = Am, UE1Bk = 4. 利用 可 加 性 公理 得 到 


P(A) = >》 P(Bh) = lim > P(B:) = lim P(UR_LB:) = lim P(A,). 
Fe n+00 Fa 只 一 oo ne 
(b) 令 Cn = n 和 C = 4. 由 于 An+l 必 An, 可 知 EE C Cnt+l, 即 事 件 序列 人 是 上 升 的 序 
列 .进一步 C= 乍 = (nP id) = UiA5 = UNICn 将 (a) 用 于 事件 序列 Cn 得 到 
1 一 PC4) =P(4)=P(C)= lim P(Cn) 一 dimtl 一 Po 
由 此 可 得 结论 : “(二 PU) 


(c) 令 轴 =[0, 引 | 和 =[m,0o] 和 4= Mm=14n = ,再 利用 结论 (b), 就 可 以 得 到 第 二 
Ea 


1.3 节 条 件 概 率 

14， 将 一 个 均匀 的 具有 6 个 面 的 人 般 子 连续 抛 括 两 次 . 36 个 可 能 的 结果 是 等 概率 的 . 

(a) 找 出 抛掷 出 “一 对 ”的 概率 ; 

(b) 已 知 抛掷 得 到 的 点 数 总 和 小 于 或 等 于 4, 求 抛掷 出 “一 对 ”的 概率 ; 

(c) 求 出 至 少 一 个 骨 子 得 6 点 的 概率 ; 

(d) 己 知 抛 括 得 到 两 个 上 角子 的 点 数 不 同 的 条 件 下 , 求 出 至 少 一 个 骨 子 得 6 点 的 概率 . 

15， 将 一 枚 硬币 抛掷 两 次 . 爱丽 丝 声 称 在 已 知 头 一 次 得 到 正面 朝 上 的 条 件 下 , 抛掷 得 到 
两 次 正面 的 可 能 性 比 已 知 两 次 中 至 少 有 一 次 正面 朝 上 的 条 件 下 的 可 能 性 大 . 这 个 结论 对 


吗 ? 当 硬币 为 对 称 和 不 对 称 的 条 件 下 结论 会 不 会 不 同 ?能 不 能 将 爱丽 丝 的 推论 方法 推广 
呢 ? 




















16. 我 们 一 共有 三 枚 硬币 , 其 中 一 枚 的 两 面 都 画 有 正面 的 图 像 , 另 一 枚 的 两 面 都 画 有 反 

面 的 图 像 , 而 第 三 枚 硬币 是 正常 的 硬币 , 两 面 的 图 像 刚 好 是 一 正 一 反 . 现在 从 中 随机 地 抽 

币 进行 抛 括 , 得 到 正面 朝 上 , 现在 问 这 枚 硬币 的 另 一 面 画 有 反面 图 像 的 概率 有 
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17， 有 一 批 产 品 共 100 件 . 按 规 定 , 从 中 随机 地 抽取 4 件 产品 进行 检查 , 只 要 这 4 件 产品 中 
有 二 信 不 合格 就 拒 绝 这 批 产品 - 如 果 这 批 挛 品 中 含有 5 件 不 合格 唱 , 这 批 产 品 入 拒绝 的 
于 率 是 多 少 ? 


18. 令 4 和 B 是 两 个 事件 . 假定 PL(B) > 0, 证明 P(A4MmB|B)= P(AIB). 


1.4 节 全 概率 定理 和 贝 叶 斯 准则 


19. 爱丽 丝 在 一 个 文件 柜 中 寻找 她 的 学 期 报告 . 她 的 文件 柜 有 者 干 个 抽 居 . 她 知道 她 的 
学 期 报告 在 第 J 个 抽 居 的 概率 为 Pj( 大 于 0). 由 于 抽 必 很 乱 , 即使 学 期 报告 真 的 在 第 7 
个 抽 屠 内 , 爱丽 丝 在 第 7 个 抽 居 内 找到 学 期 报告 的 概率 为 到 现在 假定 爱丽 丝 在 某 个 抽 
屋内 找 , 不 妨 设 在 第 7 个 抽 导 内 找 , 而 没有 找到 . 证 明 在 这 个 事件 发 生 的 条 件 下 , 她 的 学 
期 报告 在 第 .7 个 抽 屠 内 的 概率 是 


p; 和 pi(l1— d:;) 和 

1 — pid;” 大 了 天 5 1— pid 若 】 ? 
20. 弱者 利用 策略 在 比赛 中 获 利 . 鲍 里 斯 准备 与 一 位 对 手 进行 两 局 的 象棋 比赛 . 他 希望 
找 出 好 的 策略 以 提高 他 赢 的 概率 . 每 局 棋 的 结果 有 三 种 可 能 : 赢 , 输 , 平局 . 如 果 在 两 局 
以 后 的 积分 相等 , 以 后 就 采用 突然 死亡 法 , 一 直 打 下 去 , 直到 一 方 赢 得 一 局 , 从 而 决定 比 
赛 的 胜 负 . 鲍 里 斯 有 两 种 不 同 的 下 棋 风 格 , 保守 的 和 进攻 的 , 并 且 鲍 里 斯 在 每 一 局 都 能 自 
如 地 决定 采用 其 中 的 一 种 风格 , 而 与 前 一 局 的 风格 无 关 . 当 采 用 保守 的 风格 时 , 和 局 的 概 
率 为 PalPa > 路 输 的 概率 为 1 一 Pa. 当 采 用 进攻 的 风格 时 , 他 赢 的 概率 为 Pw, 输 的 概率 
为 1 一 Pu. 鲍 里 斯 在 突然 死亡 阶段 总 是 采用 进攻 的 风格 , 但 是 在 第 一 、 二 局 可 以 随意 采 
用 不 同 的 风格 . 


(a) 找 出 下 列 几 种 策略 下 , 鲍 里 斯 得 胜 的 概率 : 

(i) 在 第 一 、 二 局 采用 进攻 风格 ; 

(ii) 在 第 一 、 二 局 采用 保守 风格 ; 

(iii) 只 要 他 的 分 数 领先 , 就 采用 保守 风格 , 其 他 情况 采用 进攻 风格 . 
(b) 若 Pw < 1/2, 那么 不 管 采取 什么 风格 , 鲍 里 斯 均 是 一 个 游戏 中 的 弱者 . 证 明 当 采用 策 
0 鲍 里 斯 可 以 有 好 于 50% 的 赢 棋 机 会 (依赖 于 Pw 和 Pa 的 值 ). 你 怎样 解 


21. 两 个 人 轮流 从 一 个 饶 子 中 随机 地 取出 一 个 球 , 饶 子 里 放 有 ww 个 白 球 和 个 黑 球 . 
首先 从 缸 子 里 取出 白 球 者 为 胜 . 为 计算 第 一 个 取 球 者 获胜 的 概率 , 导出 一 个 递 推 公式 . 
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.一 共有 k 个 饶 子 , 每 个 色 子 中 有 了 个 白 球 入 个 黑 球 . 将 缸 子 1 中 随机 地 取出 一 
个 球 放 到 馈 子 2 中 , 再 在 钠 子 2 中 随机 地 取出 一 个 球 放 到 镀 子 3 中 , 如 此 往复 , 直到 最 后 , 从 
铅 子 & 中 随机 地 取出 一 个 球 . 证 明 最 后 取出 的 球 是 白 球 的 概率 与 第 一 次 取出 白 球 的 概 
率 是 一 样 的 ， 即 m/ln 十 772) 


. 一 共有 两 个 镀 子 , 最 初 两 个 钠 子 中 含有 相等 个 数 的 球 . 现在 进行 一 次 球 的 交换 , 即 同 
时 从 各 自 的 色 子 中 随机 地 拿 出 一 个 球 放 到 对 方 的 饶 子 中 去 . 经 过 4 次 这 样 的 交换 以 后 , 两 
i i 即 原来 在 哪个 铅 子 的 球 还 是 在 
哪个 骏 子 中 . 


24， 犯 人 的 难题 . 已 知 三 个 犯人 中 有 两 个 犯人 将 要 被 释放 , 但 在 事情 还 未 公布 之 前 , 被 释 
放 犯 人 的 身份 是 保密 的 . 其 中 一 个 犯人 要 求 看 守 人 告诉 他 , 在 他 的 两 个 狱 友 中 哪 一 个 将 

被 释放 . 看 守 拒 绝 理由 如 下 : “在 现 有 的 信息 之 下 , 你 被 释放 的 概率 为 2/3. 
我 若 告 诉 你 这 个 信息 , 将 在 你 和 男 一 个 犯人 之 间 确 定 哪 一 个 人 被 释放 , 所 以 你 被 释放 的 

概率 就 将 变 成 1/2.° “这 个 看 守 所 列 理由 的 错误 在 哪里 ? 


25， 两 个 信封 之 谜 . 你 收 到 两 个 信封 , 每 个 信封 内 有 若干 钞票 , 钞票 的 数目 都 是 整数 (以 

元 为 单位 ), 但 两 个 信封 内 的 钱 数 是 不 相同 的 . 两 个 信封 内 的 钱 数 可 以 认为 是 未 知 的 常 

数 . 当 你 随机 地 打开 一 个 信封 以 后 , 这 个 信封 中 的 钱 就 是 你 的 了 . 为 了 多 和 拿 钱 . 你 还 可 以 

改变 主意 , 决定 拿 男 一 个 信封 中 的 钱 . 一 个 朋友 声称 有 一 个 策略 , 可 以 使 拿 到 钱 数 较 大 的 

信封 的 概率 超过 1/2. 其 方法 如 下 :你 连续 地 抛掷 一 枚 硬币 , 直到 出 现 正面 出 现 为 止 , 令 

| :抛掷 硬币 的 次 数 再 加 上 172. 如 果 你 头 一 次 打开 的 信封 里 的 钱 数 少 于 大 你 就 次 信 
否则 不 换 . 你 的 朋友 的 方法 可 行 吗 ? 


26.， 归纳 法 的 悖 论 . 考虑 一 个 命题 , 但 不 知道 命题 的 真 伪 . 如 果 我 们 看 到 许多 例子 与 这 个 
命题 相 匹 配 , 那么 我 们 就 增加 了 对 这 个 命题 为 真 的 信心 . 这 些 推论 方法 称 为 (从 哲学 意义 
上 , 不 是 从 数学 上 的 ) 归纳 推论 法 . 现在 考虑 一 个 命题 “所 有 的 母 牛 是 白色 的 ”. 其 等 价 
的 命题 为 “ 凡 不 是 白色 的 就 不 是 母 牛 ”. 当 我 们 观察 到 几 只 黑色 的 马 鸦 的 时 候 , 我 们 的 
观察 显然 与 这 个 命题 古 相 适 应 的 ， 但 是 这 些 观察 会 不 会 使 得 命题 “所 有 的 母 牛 是 白色 
的 ”为 真 的 可 能 性 更 大 一 些 呢 ? 


为 分 析 这 种 情况 , 我 们 考虑 一 个 概率 模型 : 
4 :所 有 的 母后 是 白色 的 ， 
4 :50%% 的 母 牛 是 日 色 的 . 

























































































令 p 是 事件 4 发 生 的 先 验 概率 Ed 我 们 分 0 9 观察 一 头 母 牛 和 一 
只 这 个 观察 与 4 是 否 发 生 是 独立 的 . 假设 “1,0 < gq < 1 并且 所 有 的 乌鸦 是 


(a) 给 定 事件 产 { 观 察 到 一 个 黑色 的 乌鸦 }, 求 (4B) 的 值 ; 
(b) 给 定 事件 {观察 到 一 头 白色 的 母 牛 }, 求 PC) 的 值 . 


爱丽 丝 和 鲍 劲 一 共有 2m+l 枚 对 称 的 硬币 . 鲍 勃 连续 抛 括 了 ntl 枚 硬币 , 而 爱丽 丝 
地 和 有 枚 硬币 . 证 明 鲍 勃 抛 出 的 正面 数 比 爱丽 丝 抛 出 的 正面 数 多 的 概率 为 1/2. 











28. * 关 于 条 件 概率 的 全 概率 公式 . 设 C1,… ,Cn 为 个 互 不 相 容 的 事件 , 并 且 形 成 样 
本 空间 的 一 个 分 制 . 令 4 和 8 是 两 个 事件 ,满足 PLB 站 Ci) >0 对 一 切 茂 立 . 证 明 下 式 
成 立 
P(4|B) = 志 P(Gi|B)P(AIB ncy). 
El 


解 ”首先 , 下 式 成 立 


P(ANB)= P((ANMB)N CG,). 
t=1 





再 利用 乘法 规则 得 到 
Pl((A4NB)NMGC)= P(B)P(Ci|B)P(AIB N C;). 
综合 两 个 等 式 得 到 
P(ANB)= >_P(B)P(Ci|B)P(AIB N Ci), 


i=]1 


上 式 两 边 除 以 P(B) 并 利用 公式 P(41B) = P(4n B)/P(B) 就 可 以 得 到 关于 条 件 概率 的 
全 概率 公式 . 


29.* 设 4 8 为 两 个 事件 ,满足 PLD) > 0 和 P(B) > 0. 我 们 称 事件 8 暗示 事件 4 如 果 
它们 满足 PLB) > P(4); 着 它们 满足 P(4B) < P(L) 则 称 事件 8 并 不 暗示 事件 4 


(a) 证 明 事 件 8 暗示 事件 4 的 充 要 条 件 是 事件 4 暗示 事件 朋 

(b) 假设 PLB") > 0. 证 明 8B 暗示 4 的 充 要 条 件 是 B° 不 暗示 4 

(c) 假定 我 们 已 经 知道 一 个 宝物 藏匿 于 两 个 地 点 之 一 , 其 概率 分 别 为 3 和 1 一 5. 假定 已 
知 这 个 宝物 藏匿 于 第 一 个 地 点 , 在 那个 地 点 进行 发 掘 , 找到 它 的 概率 为 了 > 0. 现在 证 明 ， 
假定 我 们 在 第 一 个 地 点 进行 发 指 ， 而 没有 找到 这 个 宝物 , 这 个 事件 “暗示 ”宝物 在 另 一 
地 点 . 


解 (a) 利用 等 式 P(4IB) =P(4NB)/P(B) 可 知 , 8 暗示 4 的 充 要 条 件 是 
P(4nB) > P(A)P(B), 利用 对 称 性 可 知 , 这 个 条 件 也 是 4 暗示 8 的 充 要 条 件 . 


(b) 由 于 P(B)+P(B") = 1 我 们 有 


P(B)P(A) + P(B)P(A) = P(A) = P(B)P(AIB) + P(B)P(AIB), 




















这 个 等 式 蕴涵 


P(B)(P(A) — P(AIB)) = P(B)(P(AIB) — P(A)). 





这 样 , PL4IB) 一 P(4) >0 (8 暗示 4) 成立 的 充 要 条 件 为 FL 一 PUB ) >0(Bs 并 不 


暗示 4 ). 
(c) 设 4 和 B8 由 下 式 给 出 


4 = {宝物 是 在 第 二 个 地 点 }， 
B = {在 第 一 个 地 点 并 未 发 现 宝物 }. 


利用 全 概率 公式 , 我 们 得 到 








P(B) = P(A‘)P(B|A®) + P(A)P(B|A) = 5(1 —p) + (1— 8B), 
故 
P(ANMB) 1—8 | 二 站 
P(AIB) = 、 - Ee 一 一 和 一 = = >1—8= P(A)., 
P{B) (1—p)+ {1l—A) 1— Bp 


这 说 明 B 暗示 4 


1.5 节 独立 性 


30， 有 一 天 , 猎手 带 着 他 的 两 头 猎犬 跟踪 某 动 物 的 踩 迹 . 他 们 来 到 一 个 三 岔口 . 猎手 知道 
两 条 猎犬 会 相互 独立 地 以 概率 p 找到 正确 的 方向 . 因此 他 让 两 条 猎犬 选择 它们 的 方向 . 
如 果 两 头 猎犬 选择 同一 方向 , 他 就 治 着 这 个 方向 走 . 知 两 头 猎犬 选择 不 同 的 方向 , 他 就 随 
机 地 选择 一 个 方向 走 . 这 个 策略 是 否 比 只 让 一 条 猎犬 选择 方向 优越 ? 


31. 在 噪声 通道 中 的 通信 . 一 串 二 进 制 信号 (0 或 1) 在 噪声 通道 内 传输 . 假设 通道 以 概率 
P 传送 信号 0, 以 概率 1-p 传送 信号 1. 错误 传输 的 概率 分 别 为 @ 和 气 ( 见 图 1. 18). 在 








传输 中 , 不 同 信号 的 误差 是 相互 独立 的 . 


(a) 问 能 够 正确 地 传送 一 个 随机 地 选择 的 第 k 个 信号 的 概率 有 多 大 ? 
(b) 假定 传送 的 信号 串 为 1011, 这 个 信号 串 能 够 被 正确 地 传输 的 概率 有 多 大 ? 














(c) 为 了 提高 传输 的 可 靠 性 , 每 个 信号 重复 传输 3 次 , 译 码 ] 


网 则 采用 多 数 决 定制 . 换言之 ， 


在 传送 信号 0(1) 的 时 候 , 实际 上 传送 的 是 000 (111) . 在 译 码 的 时 候 , 采用 少数 服从 多 数 的 
原则 , 例如 收 到 的 信号 为 010, 则 译 成 信号 0, 若 收 到 的 信号 为 110, 则 译 成 信号 1. 作 了 这 样 
的 编码 和 译 码 的 规定 以 后 , 信号 0 被 正确 传输 的 概率 有 多 大 ? 
(d) 在 (c) 中 ,0 为 何 值 才能 使 信号 0 被 正确 传输 的 概率 增 大 ? 


(e) 假设 编码 和 译 码 的 规则 采用 (c) 中 的 规定 . 当 接 收 端 得 到 101 的 时 候 , 对 方 发 信号 0 的 














概率 有 多 大 ? 





1 一 80 


E] 
1 一 sl 


图 1. 18 ”二进制 通信 通道 中 的 传输 误差 概率 


32. 国王 的 兄弟 姐妹 . 国王 只 有 一 个 兄弟 或 姐妹 , 那么 国王 有 一 个 兄弟 的 概率 有 多 大 ? 
此 处 假定 国王 的 母亲 生男 或 生 女 的 概率 为 1/2, 而 且 各 次 生育 是 相互 独立 的 . 注意 回答 此 
问题 的 时 候 , 你 必须 说 清楚 附加 的 假设 . 


33， 利 用 有 偏 的 硬币 作出 无 偏 的 决策 . 爱丽 丝 和 鲍 勃 想 利用 一 枚 均匀 的 硬币 来 决定 他 
们 去 看 歌剧 还 是 看 电影 . 不 幸 的 是 , 他 们 只 有 一 枚 有 偏 的 硬币 (而 且 他 们 并 不 知道 偏 的 程 
. 怎样 利用 一 枚 有 偏 的 硬币 作出 无 偏 的 决策 , 即 以 1/2 的 概率 看 电影 , 1/2 的 概率 看 歌 
剧 呢 ? 


34. 一 个 电子 系统 由 许多 相同 的 元 件 构成 . 每 个 元 件 有 效 的 概率 为 p, 并 且 各 元 件 之 间 

否 有 效 是 相互 独立 的 . 这 些 元 件 由 三 个 子 系统 构成 ( 见 图 1. 19) . 这 个 系统 称 为 有 效 的 ， 
如 果 在 图 中 由 4 到 8 有 一 条 通路 ， 且 通 路 上 每 一 个 元 件 是 有 效 的 . 这 与 图 中 的 三 个 子 
系统 同时 有 效 是 等 价 的 . 三 个 子 系统 同时 有 效 的 概率 有 多 大 ?1 















































12 这 个 概率 也 是 整个 系统 有 效 的 概率 . 一 一 译 者 注 

















图 1. 19 一 个 由 许多 相同 元 件 构 成 的 系统 , 是 三 个 子 系统 串联 而 成 . 这 个 系统 称 为 有 
效 的 , 如 果 存 在 由 4 到 的 一 条 通路 , 且 通 路 上 的 每 一 个 元 件 都 是 有 效 的 


35. 有 选 了 的 系统 的 可 靠 性 .一 个 系统 由 个 相同 元 件 组 成 , 其 中 每 一 个 元 件 有 效 的 

概率 为 p, 并 且 其 他 元 件 有 效 与 否 是 相互 独立 的 . 这 个 系统 称 为 n 选 K 系统 , 如 果 这 

人 & 个 元 件 有 效 , 那么 这 个 系统 才 有 效 . 这 个 n 选 有 系统 有 效 的 概率 有 
2 








36， 一 个 电力 供应 系统 从 个 电厂 得 到 电力 供应 城市 用 电 . 由 于 种 种 原因 , 电厂 Z 以 
概率 Pi 中 断 供电 , 而 且 各 电厂 之 间 是 相互 独立 的 . 


(a) 假定 每 个 电厂 在 供电 的 时 候 能 够 单独 供应 全 市 的 用 电 . 问 这 个 城市 处 于 全 市 停电 的 
概率 有 多 大 ? 


(b) 假定 有 两 个 以 上 电厂 供电 的 时 候 , 才能 避免 全 市 停电 . 问 全 市 停电 的 概率 有 多 大 ? 


37， 有 一 个 手机 服务 系统 , 它 有 ma 个 电话 用 户 (有 了 时候 需 要 电话 连接 ) 和 za 个 数据 用 
户 ( 有 时 候 需 要 数据 连接 ). 我 们 估计 在 给 定 的 时 刻 , 每 个 电话 用 户 需 要 系统 服务 的 概率 
为 记 , 每 个 数据 用 户 需 要 系统 服务 的 概率 为 Pz. 假定 各 用 户 的 需求 是 相互 独立 的 . 已 知 
一 个 电话 用 户 的 数据 传输 率 为 "1 比特 / 秒 ,一 个 数据 用 户 的 数据 传输 率 为 r2 比特 / 秒 . 
而 手机 服务 系统 的 容量 为 c 比特 / 秒 .用户 的 需求 超过 系统 容量 的 概率 是 多 少 ? 


38， 点 数 问题 . 3 泰 里 思 和 温 迪 在 玩 18 个 洞 的 高 尔 夫 球 , 奖金 为 10 元 钱 . 他 们 各 自 赢得 一 
个 洞 的 概率 分 别 为 p( 泰 里 思 ) 和 1-p( 温 迪 ), 并 且 各 个 洞 的 输赢 是 相互 独立 的 . 打 完 10 个 
洞 的 时 候 , 他 们 的 比分 为 4:6, 温 迪 占 上 风 . 此 时 泰 里 思 接 到 一 个 紧急 电话 , 必须 回 单位 工 
作 . 他 们 决定 按照 他 们 打 完 比赛 时 候 赢得 比赛 的 概率 分 割 奖金 . 假定 Prlpw) 代表 在 目 
前 10 个 洞 的 比分 4:6 的 条 件 下 , 完成 18 个 洞 的 比赛 后 泰 里 思 ( 温 迪 ) 领先 的 概率 , 则 泰 里 思 
应 得 10pr/tpr+Pm) 元 , 而 温 迪 应 得 10pw/ pr + Pw) 元 . 泰 里 思 应 该 分 得 多 少 钱 ? 
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国内 称 为 赌 本 分 割 问题 . 一 一 译 者 注 



































注 ”这 是 著名 的 点 数 问 题 的 一 个 例子 . 这 个 问题 在 概率 论 发 展 历史 上 起 着 很 重要 的 作 
用 . 这 是 舍 瓦 利 耶 。 德 梅 雷 于 17 世 纪 向 由 斯 卡 提 出 的 赌博 中 断 情 况 下 财 本 的 分 割 问题 . 
对 此 问题 , 帕斯卡 提出 这 样 的 想法 : 赌 本 分 割 问题 应 当 按 中 断 的 条 件 下 双方 各 自 赢 得 赌 
博 的 条 件 概率 进行 分 配 . 由 斯 卡 在 茶 些 特殊 的 情况 下 解决 了 这 个 问题 , 并且 通 过 与 费 马 
的 通信 激发 了 更 多 的 想法 和 与 概率 有 关 的 研究 课题 . 


39， 有 一 个 班 的 学 生 的 出 勤 率 很 低 , 这 使 教授 很 苦恼 . 她 决定 着 2 个 学 生 中 出 勤 人 数 少 
于 £ 个 时 就 不 上 课 . 现在 假定 各 个 学 生 独 立地 决定 自己 是 否 出 勤 , 在 好 天 和 气 的 日 子 里 ， 
每 个 学 生出 勤 的 概率 为 Pg, 在 坏 天 气 的 日 子 里 , 每 个 学 生出 勤 的 概率 为 Ps. 现在 假定 茶 
一 天 是 坏 天 气 的 概率 为 已 知 , 计算 这 位 教授 在 这 一 天 能 够 讲课 的 概率 . 


40， 有 一 枚 不 均匀 的 硬币 , 在 抛掷 的 时 候 , 正面 出 现 的 概率 为 p 反面 出 现 的 概率 为 1-p 
令 gn 为 n 次 独立 抛掷 后 得 到 偶数 次 正面 向 上 的 概率 . 导出 一 个 联系 和 和 dn-1 的 递 
推 公式 , 并 利用 递 推 公式 导出 gn 的 公式 


qn = (1+ (1— 2p)") /2. 


41， 设 在 一 个 轮子 上 具有 连续 刻度 , 不 妨 设 刻度 的 范围 为 (0, 1). 每 次 转动 这 个 轮子 , 得 
到 一 个 数 . 现在 设 有 无 穷 多 个 人 参加 这 个 游戏 , 第 7 个 人 转动 以 后 , 得 到 一 个 数 . 只 有 得 
数 最 小 的 那个 人 留 下 来 . 假设 每 次 转动 都 相互 独立 , 且 没 有 平局 . 令 WV 为 第 一 个 人 被 淘 
汰 的 时 刻 . 对 任意 计算 PLN = 中) 


42.# 赌 徒 破产 问题 . 一 个 赌 徒 进行 一 系列 相互 独立 的 押 注 活动 . 每 次 押 注 , 他 以 概率 p 
说 1 元 钱 , 以 概率 1-p 输 1 元 钱 . 开始 押 注 时 他 有 《 元 钱 , 当 他 输 光 钱 的 时 候 , 或 者 他 的 




























































































7 元 的 时 候 , 他 就 停止 押 注 . 问 他 以 累计 钱 数 为 元 而 停止 押 注 的 概率 有 
? 


解 用 4 表示 以 累计 钱 数 为 p 元 而 停止 押 注 的 事件 , 用 表示 第 一 次 押 注 而 说 得 1 元 
eu 用 wk 表示 他 开始 的 时 候 具 有 k 元 钱 的 条 件 下 事件 4 发 生 的 概率 . 利用 全 
既 率 公式 


we = P(AIF)P(F)+P(AIF)P(F') = pP(AIF)+gP(AIF), 0<k<n, 
其 中 4 二 1 一 P. 利用 过 去 押 注 结果 和 以 后 的 押 注 是 相互 独立 的 , 第 一 次 押 注 赢得 1 元 钱 等 


同 于 以 K+1 元 钱 开始 , 故 P(A) = wety 类 似 可 得 了 (下 ) = wk-l 这 样 我 们 得 到 
Wk 二 PWE+1 十 4wk-1, 这 个 结果 可 以 写成 





WR CO— Wk= TO WwW) 0<k<n, 


其 中 了 = 4/P. 利用 这 个 递 推 公式 和 边界 条 件 wo =0 和 un = 1 可 以 将 wr 表达 为 p 和 
2 的 函数 . 


我 们 有 kt 一 不 = 天 (ol 一 wo), 并 注意 到 wo = 0 从 而 





天 


WEk+1 = Wk TT 六 RD] = KK-1 十 人 -lw 下 raw = WI TTWIT''"*T ri. 


上 面 的 和 式 可 以 分 成 "= 1p = 四 和 7 关 1(p 关外) 两 种 情况 计算 出 来 ,得 到 











于 
本 Tb 在 D 天 9， 
Kw1, 耕 Pp 和 地 
由 于 Wn 一 1， 利用 上 式 可 以 得 到 
1—r 
i 0 
wi 一 
1 
a 若 p 一 0， 
从 而 
1 a 
一 
wi 一 


若 p = 4. 


43.* 令 4 和 有 为 相互 独立 的 事件 . 利用 事件 独立 性 的 定义 证 明 下 面 的 结论 : 
(a) 事件 4 和 事件 Be 相互 独立 ; 
(b) 事件 4 和 事件 Be 相互 独立 . 


解 (a) 事件 4 可 以 表 成 两 个 互 不 相 容 的 事件 4N B* 和 4NnB 的 并 .利用 概率 的 可 
加 性 公理 和 事件 4 和 事件 8 的 相互 独立 性 , 得 到 


P(A) =P(AN B)+P(ANB')= P(A)P(B)+P(AN Be). 
由 此 可 知 

P(ANB')= P(A)(1 — P(B)) = P(A)P(B'). 
即 4 和 B* 相互 独立 . 


(b) 由 4 和 B 的 相互 独立 性 , 利用 (a) 推 得 4 和 Br 的 相互 独立 性 . 再 将 结论 (a) 应 用 
于 B* 和 4 得 到 B® 和 4r 的 相互 独立 性 . 


44.* 令 小 及 C 为 相互 独立 的 事件 ,PIC) > 0. 证 明 4 和 8 在 给 定 C 的 条 件 之 下 是 
相互 独立 的 . 


解 ”我 们 有 





P(ANMBNMO) 
PlC) 
P(A})P(B)P(C') 
PI(C) 
= P(A)P(B) 
= P(A|IC)P(BIO), 
由 此 可 知 4 和 B 在 给 定 C 的 条 件 之 下 是 相互 独立 的 . 在 一 系列 的 等 式 中 , 第 一 个 等 式 
是 由 条 件 概率 之 定义 所 得 , 第 二 个 等 式 是 由 事件 4、B、C 的 独立 性 , 第 四 个 等 式 是 分 别 
利用 了 4 与 C 的 独立 性 和 8B 与 C 的 独立 性 . 
45.*# 令 4、4、48、244 为 相互 独立 的 事件 , Plan 34) >0. 证 明 


P(A1U A |A3 门 44) = P(A U .42). 


P(ANBIC) = 





解 ” 我 们 有 


P(ANANA4) P(A)P(A3)P(44s) 
Pla N= pA 
Ps NM A4) P(As)P(A4) 


类 似 地 可 以 得 到 P(Ao|As 门 了 44) = P(A,) 和 PlAi 门 42|.43 门 As ) == P(A 门 A ) 最 后 得 到 ， 


P(A1U 4?|4am44) =P4il4anmna4)+PL4zl4anmna44) 一 Pina4zl4amna4a) 
=P(A1) +P(A2) — P(AiN 42) 
一 PIL_.41 LU Ao). 


46.# 拉 普 拉 斯 继承 准则 . 设 有 mtl 个 盒子 , 第 k 个 盒子 内 放 有 个 红 球 和 wk 个 
白 球 , 其 中 & 由 0 变 到 x 现在 随机 地 取 一 个 盒子 (每 个 盒子 等 概率 被 取 到 ) , 独立 地 、 有 
放 回 地 从 这 个 盒子 内 抽取 一 个 球 , 一 共 抽 取 次 . 假定 这 n 次 抽 得 的 球 都 是 红 球 . 问 从 
人 这 个 球 为 红 球 的 概率 有 多 大 ? 当 wm 很 大 的 时 候 , 这 个 概率 会 
怎样 变化 ? 


解 ” 记 为 第 ntl 次 抽 得 红 球 的 事件 , RB 表示 前 n 次 都 抽 得 红 球 的 事件 . 直观 上 看 ， 
连续 抽出 红 球 说 明 被 抽取 盒子 里 含有 很 多 红 球 , 因此 PE 已) 比较 靠近 1. 事实 上 , 拉 普 
拉 斯 利用 此 例 去 计算 给 定 5000 年 中 每 天 日 出 的 条 件 下 明天 日 出 的 概率 . (我 们 不 清楚 拉 
普 拉 斯 多 么 严肃 地 对 待 这 个 计算 问题 , 但 是 这 已 成 为 概率 论 发 展 过 程 中 的 一 个 传说 . ) 


我 们 有 








P(ENMR,) 


PlR,) 





再 利用 全 概率 公式 , 得 到 


P(R,) = 》、\P( 选 中 了 第 大 个 盒子 ) (去 ) — ( 盐 ) ， 


二 0 k=0 
1 
k=0 


对 于 较 大 的 肥 可 将 和 数 看 成 积分 的 近似 值 : 


p(R,) 1 k\" 1 人 ng 1 Tan+1 
-庆生 SR 7 Oo Td = : [| 
m 十 1 rr (m+ 1)m" .Jo (m+l)m"™ n+t+l 


1 


n+l1 








类 似 地 ， 


P(E 门 R) 一 PR od 





nt+2° 
故 


, , nn 十 1 
P(E|R) ~ ——. 
7 十 2 


当 ww 和 4 很 大 的 时 候 , 再 抽 得 一 个 红 球 是 几乎 确定 的 . 


二 项 式 系数 公式 和 帕斯卡 三 角形 . 


(a) 在 抛掷 a 枚 硬币 的 试验 中 , 将 出 现 次 正面 向 上 的 结果 数 记 作 (x), 利用 (#) 的 这 
个 定义 导出 帕斯卡 三 角形 中 所 具有 的 递 推 关系 ( 见 图 1. 20) ; 


(b) 利用 (a) 中 推导 出 来 的 递 推 关系 和 归纳 法 , 证 明 下 面 的 公式 


n nl 
天 本 kl(n 一 大 ) 


解 (a) 可 以 有 两 种 方法 产生 含有 k 次 正面 向 上 的 序列 (0 < 六 < 由 


(GD 前 六 1 次 抛掷 硬币 的 试验 中 出 现 k 次 正面 向 上 , 第 2 次 抛掷 的 时 候 出 现 反面 向 
上 . 这 种 序列 一 共有 (上 ) 个 


(2) 前 六 1 次 抛 卷 候 币 的 试验 中 出 现 三 1 次 正面 向 上 , 第 2 次 抛掷 的 时 候 出 现 正 面 
向 上 . 这 种 序列 一 共有 (=-1) 个 


这 样 ， 




















村 (2D) + (FR) k=12, ,nO—1, 


当 省 二 人 区 


这 个 公式 总 结 了 帕斯卡 三 角形 中 提示 的 递 推算 法 . ( 见 图 1. 20) 
(b) 现在 利用 (a) 中 的 公式 以 及 归纳 法 导出 下 面 的 公式 


n nl 
大 加 klln 一 天) 








对 于 入 1 利用 约定 01=1, 我 们 得 到 (o) = (= 1 即 对 于 1 人 现在 假定 公 
2 1 以 前 的 一 切 正 整数 都 成 立 . 转 而 讨论 7 的 情况 .对 于 有 一 上 由 下 
工 
n nO— 1 nO—1 
国人 -+ 人) 
(nC—1)! (nC— 1)! 


(kiNn— 1 k++) kln—1— A)l 
大 nl 7 一 天 nl 

nin! nn Ano A 

nl 


~ kl(n — k)! 














看 出 , 公式 是 成 立 的 . 而 对 于 大 = 的 情况 , 公式 也 显然 成 立 . 这 样 我 们 用 归纳 法 证 明 
了 公式 对 一 切 ”是 成 立 的 . 


(0) 


路 “和 生 5 和 


图 1. 20 利用 帕斯卡 三 角 依次 计算 二 项 式 系 数 的 方法 . 左边 的 三 角 阵列 上 的 数 就 是 
在 右边 阵列 上 的 相应 的 数 . 而 右边 的 三 角 阵 列 上 的 数 , 除了 每 一 排 的 两 端的 数 都 是 1 以 
外 , 其 余 位 置 是 的 数 都 是 上 一 排 的 两 个 相 邻 数 的 和 


48.* 博 雷 尔 - 坎 泰利 引 理 . 考虑 一 个 无 穷 试验 序列 . 假定 第 7 次 试验 成 功 的 概率 为 Pi 
W 为 试验 序列 中 没有 一 次 成 功 的 事件 , 并 记 7 为 试验 序列 中 具有 无 限 多 次 成 功 的 事 





> 
Dn- 
i=] 


(a) 假定 试验 是 相互 独立 的 , 并 且 .证 明 P(N)=0 和 了 =] 


区 
解 (a) 由 事件 发 生 可 知 前 次 试验 中 没有 一 次 成 功 因此 


P(N) < [Ia — pi;). 
t=1 


Di < 


DC 
.证 明 P(7)=0. 


两 边 取 对 数 , 得 到 
log PIN) < >》 logl1 — pi) = > —pi). 
i=]1 i=1 


上 式 中 令 n 一 o%, 我 们 得 到 log P(N) = 一 0%o, 因此 P(N)=0. 


记 Ln 表示 这 个 无 穷 次 试验 中 只 有 有 限 次 成 功 并 且 最 后 一 次 成 功 出 现在 第 n 次 试验 . 
由 于 我 们 已 经 证 明了 P(N)=0. 不 难 验 证 PlLn) = 0. 又 由 于 事件 I* 是 不 相 容 的 事件 序 








列 Zr 如 二 J 和 的 并 .我 们 得 到 
P(Tc = P(N)+ P{(L,) = 0, 
n=] 


所 以 PUT) = | 


(b) 令 5i 表示 第 7 次 试验 成 功 的 事件 . 对 某 个 固定 的 4 人 i> mu, 定义 五 表 
示 在 时 刻 n 以 后 在 时 刻 7 第 一 次 成 功 的 事件 , 显然 记 C 5i 最 后 令 An 表示 在 时 刻 1 
以 后 至 少 有 一 次 成 功 的 事件 . 注意 到 工 < 4 为 中 多 次 成 说明 全 时 刻 n 以 后 

至 少 有 一 次 成 功 . 显然 事件 4 是 不 相 容 的 事件 序列 {i :i> nn} 之 并 . 这 样 


P(7) < sn -e(U 本- 和 P(P) < ye 


i 二 nn 十 1 i 二 Tt 十 1 i 二 nt 十 1 i 二 Ti 二 1 














Di 00 
由 于 2 , 令 n 二 oo, 上 式 右边 趋 于 0, 这 说 明 PLD = 0. 


1.6 节 计数 法 


49. 德 梅 雷 之 谜 . 独立 地 抛掷 一 个 6 面体 货 子 , 共 三 次 . 问 下 面 的 事件 中 哪个 事件 可 能 性 
和 We 还 是 和 数 为 12? (这 个 问题 是 17 世 纪 法 国 贵 族 德 梅 雷 向 他 的 朋友 由 其 
是 出 


50， 生 日 问题 . 一 共有 个 人 参加 一 个 聚会 . 假定 每 个 人 的 生日 是 相互 独立 地 分 布 的 ， 
并 且 均 匀 地 分 布 在 一 年 中 的 某 一 天 , 并 且 排 除了 2 月 29 日 这 一 特殊 的 日 子 (假定 没有 人 在 
这 一 天 生日 ). 问 没 有 任何 两 人 在 同一 天 生日 的 概率 有 多 大 ? 


51. 有 一 个 炙 子 中 含有 个 红 球 入 个 白 球 . 


(a) 我 们 随机 地 从 中 抽 走 两 个 球 . 写 出 样本 空间 并 计算 抽出 两 个 不 同 颜 色 的 球 的 概率 . 
计算 的 时 候 利 用 两 种 不 同 的 方法 ; 一 种 方法 是 利用 离散 均匀 分 布 率 的 计数 方法 , 男 一 种 
方法 是 利用 序 贯 的 基于 乘积 规则 的 方法 . 


(b) 我 们 转动 一 个 具有 3 条 边 的 山 子 , 每 条 边 上 分 别 标明 1，2，3. 如 果 出 现 % 则 从 键 
| K 个 球 , 放 在 一 边 . 写 出 样本 空间 并 利用 全 概率 公式 计算 取出 的 球 全 是 红色 的 
2 


52.， 经 过 充分 洗 牌 的 一 副 52 张 的 扑 殉 牌 中 , 从 上 到 下 地 一 张 一 张 地 翻 牌 , 求 出 第 13 张 牌 
是 第 一 次 遇 到 的 老 K 的 概率 . 


， 一 共有 90 个 学 生 , 其 中 包括 乔 和 简 . 现在 将 他 们 随机 地 分 成 3 个 班 (每 个 班 30 人 ) . 求 
乔 和 简 被 分 在 同一 个 班 内 的 概率 . 


54， 有 20 辆 小 汽车 停放 在 一 个 停车 场 . 这 20 辆 车 中 有 10 辆 是 美国 制造 , 男 外 10 辆 是 其 他 
国 制 造 . 停车 场 是 一 字 排 开 的 共有 20 个 车 位 . 在 某 一 天 内 这 些 车 辆 的 停放 是 完全 随机 的 . 
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(a) 一 共有 多 少 种 不 同 的 车 辆 停放 方法 ? 


0 2 多 大 ( 既 没 有 两 辆 美国 车 相 邻 , 也 没有 两 辆 外 国 车 
RB)? 

55， 在 一 个 8 x 8 的 国际 象棋 盘 中 放 上 8 个 车 (国际 象棋 的 棋子 是 放 在 方 格子 内 , 不 是 放 
在 交叉 线 上 的 !). 假定 所 有 放 法 都 是 等 可 能 的 . 求 出 这 些 车 是 安全 的 概率 (在 同一 行 上 不 
能 有 两 个 车 , 在 同一 列 上 也 不 能 有 两 个 车 . ) 


56， 某 个 系 一 共 开 设 8 门 低 水 平 课 程 2 L2,… ,Ls 和 10 门 高 水 平 课程 Hi1, fH2,… ,Hi. 
一 个 有 效 的 课程 表 由 4 门 低 水 平 课程 和 3 门 高 水 平 课程 组 成 . 


(a) 一 共 可 以 排出 多 少 种 不 同 的 课程 表 ? 


(b) 假定 课程 三 ,… ,Hs 必须 以 局 为 先 修 课程 , 46 ,Hio 必须 以 Lz 和 Ls 为 先 
修 课程 . 问 在 这 样 的 条 件 下 可 以 排出 多 少 种 不 同 的 课程 表 ? 


57， 利 用 26 个 字母 能 够 写 出 多 少 6 个 单词 的 句子 , 其 中 每 个 字母 恰好 出 现 一 次 ?所 谓 一 个 
单词 就 是 指 一 个 非 空 的 字母 序列 . 当然 这 些 单词 和 人 句子 可 以 是 党 无 意义 的 . 


58， 从 一 副 充分 洗 牌 的 扑 死 牌 中 取出 上 面 的 7 张 牌 . 求 出 下 列 事件 的 概率 : 
(a) 7 张 牌 中 恰好 含有 3 张 A; 

(b) 7 张 牌 中 恰好 含有 2 张 K; 

(c) 7 张 牌 中 恰好 含有 3 张 A, 或 者 恰好 含有 2 张 K, 或 者 恰好 含有 3 张 A 和 2 张 K. 


59， 停 车 场 停 有 100 辆 车 , 其 中 K 辆 是 有 问题 的 , 按 森 榜 法 案 应 退回 三 家 的 . 现在 从 中 随 
机 地 选 出 wm 辆 进行 试车 , 问 其 中 恰 有 2 辆 问题 车 的 概率 有 多 大 ? 


60， 将 一 副 52 张 充分 洗 牌 的 扑克 牌 分 发 给 4 个 玩家 . 求 每 个 玩家 得 到 一 张 A 的 概率 . 


61.* 超 几 何 概 率 . 一 个 铅 子 里 边 放 及 个 球 , 其 中 ww 个 是 红 球 . 现在 从 刍 子 中 随机 
地 、 无 放 回 地 抽取 k 个 球 (无 放 回 的 意思 在 下 一 次 抽取 球 的 时 候 已 经 抽出 的 球 不 再 放 
回 负 子 ). 问 抽出 的 & 个 球 中 恰 含 7 个 红 球 的 概率 有 多 大 ? 


解 样本 空间 由 (*) 种 从 铅 子 中 选择 K 个 球 的 方法 组 成 . 与 我 们 感 兴趣 的 事件 有 关 的 
选择 方法 数 可 以 这 样 计算 ;在 w 个 红 球 中 选 7 个 球 有 (7 种 选 法 , 从 nw 个 不 是 红色 
的 球 中 选 大 7 个 球 有 【站 种 选 法 . 这 样 一 共有 (站 (i 种 选 法 . 由 于 各 种 选 法 都 是 
等 可 能 的 , 相关 的 概率 为 



























































其 中 i 三 0 满足 条 件 i mi 有 上 且 上-i<n 一 m. 对 于 其 他 的 7 相应 的 概率 为 0. 
62.* 存在 不 可 区 分 的 对 象 的 排列 数 . 在 对 n 个 对 象 进 行 排列 的 时 候 , 若 遇 到 某 些 对 和 象 
之 间 不 可 区 分 , 此 时 会 造成 不 同 的 排列 之 间 不 可 区 分 . 因此 这 种 具有 不 可 区 分 对 象 的 排 
列 数 会 小 于 21. 例如 三 个 不 同 的 字母 A、B、C 共 有 6 种 不 同 的 排列 

ABC, ACB, BAC, BCA, CAB, CBA， 
但 是 字母 A, D 和 D 只 有 3 种 不 同 的 排列 

ADD, DAD, DDA. 

(a) 假定 2 个 对 象 中 有 个 是 不 可 区 分 的 .证 明 可 区 分 的 对 象 的 序列 一 共有 PH/ 有 个 . 


(b) 现在 假定 一 共有 z 种 不 可 区 分 的 对 象 类 型 ,而 第 7 种 类 型 内 ,一 共有 点 个 不 可 区 
分 的 对 象 . 证 明 可 区 分 的 对 象 排列 数 为 
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解 (a) 不 妨 将 2 个 对 象 中 个 不 可 区 分 的 对 象 D 记 为 Di,… ,Dk. 阁 顾 及 它们 的 下 
标 , 这 k 个 原本 不 可 区 分 的 对 象 就 是 可 区 分 了 . 将 这 些 对 象 进行 排列 , 一 共有 a! 个 不 
同 的 排列 . 把 这 些 原本 不 可 区 分 的 对 象 的 下 标 去 掉 , 则 这 些 排列 中 每 一 个 排列 都 有 一 些 
排列 与 这 个 排列 不 可 区 分 . 这 些 不 可 区 分 的 排列 形成 一 个 类 , 这 个 类 中 一 共有 Al 个 排 
列 . 这 样 , za! 个 排列 可 以 分 成 "W/ 导 个 类 , 每 个 类 内 的 排列 都 是 不 可 区 分 的 . 这 样 , 可 区 
分 的 对 象 序列 数 就 是 "已 例如 水 信也 三 个 对 象 的 排列 有 31=6 个 (把 题 中 给 出 的 
小 及 C 的 六 种 不 同 排列 中 的 及 C 蔡 换 为 D7 即 可 ) 


ADD, ADD, DAD, DAD, DDA, DDA. 

这 6 个 排列 种 有 些 排列 是 不 可 区 分 的 . 可 以 将 它们 分 成 /局 =32=3 个 类 
{ADD, ADD}, {DAD. DAD}, {DDA. DDA}. 

而 每 个 类 内 含有 有 =2!=2 个 不 可 区 分 的 排列 . 


(b) 一 种 办 法 是 将 (a) 中 的 方法 进行 推广 . 对 每 一 个 类 别 7 ,有 点 个 不 可 区 分 的 对 象 ， 
单 就 这 个 不 可 区 分 的 对 象 而 言 , 就 有 点 ! 种 不 可 区 分 的 排列 . 由 于 一 共有 > 类 不 可 区 分 
的 对 象 , 这 样 每 一 个 排列 , 都 会 属于 一 个 具有 名 !h21… 后! 个 排列 的 大 类 , 在 这 个 大 类 内 
的 所 有 排列 都 是 不 可 区 分 的 . 这 样 可 以 区 分 的 对 象 序列 的 个 数 就 是 


nl 


另 一 种 考虑 的 方法 如 下 : 在 个 位 置 中 选 定 六 个 位 置 给 第 一 类 不 可 区 分 的 对 象 占 
有 , 剩 下 的 于 一 六 个 位 置 中 再 选 定 局 个 位 置 给 第 二 类 不 可 区 分 的 对 象 占 有 , 依次 类 推 ， 
对 于 每 一 类 不 可 区 分 的 对 象 都 分 派 了 位 置 . 这 样 每 一 种 位 置 的 分 配 位 置 的 方法 对 应 于 一 
种 可 区 分 的 对 象 序列 . 这 样 的 分 配 位 置 的 方法 数 等 于 将 个 对 象 分 成 上 个 组 的 方法 
数 , 每 一 个 组 的 大 小 分 别 是 入 ,… ,后 ,而 这 种 分 组 方法 的 数目 就 是 多 项 式 系数 . 





























第 2 章 离散 随机 变量 
2.1 基本 概念 


在 许多 概率 模型 中 试验 结果 是 数值 化 的 , 例如 许多 仪器 的 仪表 板 的 读数 以 及 股价 等 . 也 
有 其 他 一 些 例子 中 的 试验 结果 不 是 数值 化 的 ， 但 是 这 些 试 验 结果 与 某 些 数值 相 联 系 . 
例如 ， 从 某 个 群体 中 选择 学 生 , 我 们 希望 了 解 每 位 学 生 的 平均 学 分 ， 当 我 们 讨论 这 些 
数值 的 时 候 , 通常 给 这 些 数值 确定 概率 .我 们 可 以 通过 随机 变量 实现 这 个 任务 ， 这 正 是 
本 章 重 点 介绍 的 对 象 . 


现在 设 在 某 个 试验 中 ， 所 有 可 能 的 试验 结果 构成 一 个 样本 空间 . 对 于 样本 空间 中 的 每 一 


个 可 能 的 试验 结果 ， 关 联 着 一 个 特定 的 数 . 这 种 试验 结果 与 数 的 对 应 关系 形成 随机 变量 
( 见 图 2. 1) .我 们 将 试验 结果 所 对 应 的 数 称 为 随机 变量 的 取 值 . 从 数学 上 讲 ， 随 机 变量 


是 试验 结果 的 实 值 函数 . 

















实数 轴 
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样本 空间 : 
两 次 抛掷 的 所 有 可 能 结果 (b) 


图 2.1 (a) 随 机 变量 的 图 像 化 表示 . 这 是 一 个 试验 结果 的 函数 , 对 每 一 个 试验 结果 
确定 一 个 数值 ; (b) 随机 变量 的 一 个 例子 . 将 一 个 具有 4 个 面 的 般 子 连续 抛掷 两 次 ， 


OS A TR 
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现在 举 几 个 随机 变量 的 例子 . 
(a) 连续 抛掷 一 枚 硬币 共 5 次 , 在 这 个 试验 中 正面 出 现 的 次 数 是 一 个 随机 变量 . 然而 作为 
试验 结果 的 长 度 为 5 的 正面 和 反面 的 序列 却 不 能 作为 随机 变量 , 因为 它 对 于 一 个 试验 结 
果 没 有 给 出 一 个 明显 的 数值 . 
(b) 在 两 次 抛掷 一 个 观 子 的 试验 中 ， 下 面 的 例子 是 随机 变量 : 

(i) 两 次 抛掷 估 子 所 得 到 的 点 数 之 和 |; 

(ii) 两 次 抛掷 一 个 仙 子 所 得 到 6 点 的 次 数 ; 

(iii) 第 二 次 抛 据 所 得 到 的 点 数 的 5 次 方 . 


(c) 在 传输 信号 的 试验 中 , 传输 信号 所 需 的 时 间 、 接 收 到 的 信号 中 发 生 错误 的 次 数 、 传 
输 信号 过 程 中 的 时 间 延 迟 等 都 是 随机 变量 . 

















我 们 列 出 若干 关于 随机 变量 的 基本 概念 ， 这 些 概念 将 在 本 章 中 详细 介绍 . 
与 随机 变量 相关 的 主要 概念 
在 一 个 试验 的 概率 模型 之 下 
。 随机 变量 是 试验 结果 的 实 值 函数 
。 随 机 变量 的 函数 定义 了 另 一 个 随机 变量 ; 
。 对 于 一 个 随机 变量 ， 我 们 可 以 定义 一 些 平均 量 , 例如 均值 和 方差 ; 
。 可 以 在 某 事件 或 某 随机 变量 的 条 件 之 下 定义 一 个 随机 变量 ; 
。 存在 一 个 随机 变量 与 某 事件 或 某 随 机 变量 相互 独立 的 概念 . 
知 一 个 随机 变量 的 值 域 (随机 变量 的 取 值 范围 ) 为 一 个 有 限 集合 或 最 多 为 可 数 无 限 集合 ， 


则 称 这 个 随机 变量 为 离散 的 ， 例 如 上 面 (a) 和 (b) 中 提 到 的 随机 变量 ， 由 于 它 只 能 取 有 
限 多 个 值 ， 所 以 是 离散 的 随机 变量 . 
若 一 个 随机 变量 可 以 取 到 不 可 数 无 限 多 个 数 , 则 这 个 随机 变量 就 不 是 一 个 离散 的 随机 变 
量 . 例如 从 区 间 [-1, 1] 上 随机 地 取 一 个 点 & 随机 变量 a? 就 不 是 离散 的 随机 变量 ， 另 
一 方面 随机 变量 





















































看 :ww>0 
sgn(a) 一 40， 若 a=0， 
一 ls 涛 二 总 自 
是 一 个 离散 的 随机 变量 . 


本 章 只 讨论 离散 随机 变量 .尽管 有 时 候 省 略 了 形容 词 “ 离 散 ”, 但 我 们 讨论 的 还 是 离散 
随机 变量 的 性 质 . 


与 离散 随机 变量 相关 的 概念 
在 一 个 试验 的 概率 模型 之 


。 离 散 随 机 变量 是 试验 结果 的 一 个 实 值 函数 , 但 是 它 的 取 值 范围 只 能 是 有 限 多 个 
值 或 可 数 无 限 多 个 值 ; 


。 一 个 离散 随机 变量 有 一 个 分 布 列 , 它 对 于 随机 变量 的 每 一 个 取 值 ， 给 出 一 个 概 
率 ; 











。 离散 随机 变量 的 函数 也 是 一 个 离散 随机 变量 ， 它 的 分 布 列 可 以 从 原 随 机 变量 
的 分 布 列 得 到 . 
下 面 的 几 节 将 讨论 上 面 所 提 到 的 概念 及 其 相关 的 方法 理论 . 此 外 我 们 还 将 提供 重要 的 离 
散 随 机 变量 的 例子 . 第 3 章 将 讨论 一 般 的 随机 变量 (不 一 定 为 离散 随机 变量 ). 


尽管 本 章 中 看 起 来 引入 了 很 多 新 的 概念 ， 实 际 上 并 非 如 此 . 我 们 只 是 将 第 一 章 中 的 概念 
(概率 、 条 件 和 独立 性 等 ) 简单 地 应 用 到 了 随机 变量 上 去 ， 仅 仅 引 进 了 一 些 新 的 记号 . 
本 章 中 真正 新 的 概念 是 均值 与 方差 


























2.2 分 布 列 


离散 随机 变量 的 取 值 概率 是 随机 变量 的 最 重要 的 特征 ， 我 们 用 分 布 列 表示 这 种 特征 , 并 
且 用 Px 表示 随机 变量 了 的 分 布 列 ， 设 x 是 随机 变量 X 的 取 值 , 则 了 取 值 为 x 的 
0 上 = 7} 的 概率 , 即 所 有 与 x 对 应 的 试验 结果 所 组 成 的 事件 的 概率 ， 

有 PXI 不 ， 











px (lz) = P({X 三 郊外 


例如 ， 在 将 一 枚 均匀 的 硬币 独立 地 抛掷 两 次 的 试验 中 , 令 了 为 正面 向 上 的 次 数 ， 则 了 
的 分 布 列 由 下 式 给 出 








1 六 并 w= 0 可 一 
px(z) 二 41/2， 车 z=1, 

0， 其 他 . 
今后 在 不 引起 混 清 的 情况 下 ， 我 们 将 省 去 表示 事件 或 集合 的 花 括 号 . 例如 用 PlX 一 了) 
表示 事件 {X = z} 的 概率 , 尽管 记号 P(X = zj) 比较 确切 一 些 , 同时 我 们 也 会 遵守 下 
和 我 们 用 大 写字 母 表示 随机 变量 ， 用 小 写字 母 表示 实数 , 例如 随机 变量 的 取 
对 于 分 布 列 ， 我 们 有 

>》 px(7) 一 本 


其 中 求 和 是 对 随机 变量 了 的 一 切 可 能 的 取 值 而 求 的 . 上 式 之 所 以 成 立 是 由 于 概率 的 可 
加 性 和 归 一 性 公理 ， 对 于 不 同 的 事件 {六 = 7 是 互 不 相 容 的 ， 并 且 对 所 有 的 事 
件 系列 { =z} 形成 了 样本 空间 的 一 个 分 割 ， 利 用 类 似 的 原理 可 以 证 明 , 对 于 任意 一 
个 了 的 可 能 值 的 集合 5， 下 式 成 立 : 








PLX €5)= Zo) 
例如 ， 在 将 一 枚 均匀 的 硬币 独立 地 抛掷 两 次 的 试验 中 , 至 少 一 次 正面 向 上 的 概率 为 
] 
>0 = Ppl -3+7=7 


分 布 列 的 计算 ， 在 概念 上 是 很 简单 的 ， 图 2. 2 给 出 了 很 直观 的 解释 . 






样本 空间 
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事件 {X= 





样本 空间 : 

两 次 抛掷 般 子 的 所 有 可 能 结果 (b) 
图 2.2 (a) 随机 变量 了 的 分 布 列 计算 方法 的 图 像 化 表示 . 对 每 一 个 了 的 可 能 值 x 
， 找 出 使 X =z 的 所 有 试验 结果 , 将 它们 的 概率 相 加 得 到 Px(7). (b) 设 所 涉及 的 试验 
是 抛掷 一 个 具有 4 个 面 的 均匀 蜗 子 ， 独 立地 抛掷 两 次 . 所 涉及 的 随机 变量 为 下 两 次 转 
动 所 得 到 的 最 大 点 数 . 的 可 能 值 为 1, 2, 3, 4， 对 于 给 定 的 x 的 值 ， 为 计算 Pxtz) 的 
值 ,将 了 取 值 为 x 的 所 有 试验 结果 的 概率 相 加 ， 得 到 Px(7) 的 值 . 例如 , 有 三 个 试 
~ 2) , (2, 2), (2, 1) ) 的 了 的 值 为 2, 而 每 一 个 试验 结果 的 概率 为 1/16， 故 
px(2) = 6 

随机 变量 不 的 分 布 列 的 计算 

对 每 一 个 随机 变量 了 的 值 x: . 

(1) 找 出 与 事件 { = z} 相 对 应 的 所 有 试验 结果 ; 


(2) 将 相应 的 试验 结果 的 概率 相 加 得 到 px(7). 
2.2.1 伯 努 利 随 机 变量 


考虑 抛掷 一 枚 硬币 ， 设 正面 向 上 的 概率 为 p， 反 面向 上 的 概率 为 1-p. 伯 努 利 随 机 变量 
在 试验 结果 为 正面 向 上 时 取 值 为 1, 在 试验 结果 为 反面 向 上 时 取 值 为 0， 即 


i。 涛 焉 面 亲 上 
0， 若 反面 间 上 . 


2， 大 天 一] 
外 一 
由 于 伯 努 利 随 机 变量 非常 简洁 ， 因 此 它 也 是 非常 重要 的 随机 变量 . 在 实际 中 它 用 于 刻画 
具有 两 个 试验 结果 的 概率 模型 ， 例 如 : 
(a) 在 给 定 的 时 刻 ， 一 架 电话 机 可 处 于 待机 状态 或 使 用 状态 ; 
(b) 一 个 人 可 以 处 于 健康 状态 或 患 有 菜 种 疾病 状态 ; 
(c) 作为 一 个 人 的 政治 态度 ， 他 可 以 赞成 或 反对 菜 个 候选 人 . 
进一步 , 我 们 可 以 将 多 个 伯 努 利 随机 变量 综合 成 更 加 复杂 的 随机 变量 . 下 面 我 们 要 讨论 
的 二 项 随机 变量 就 是 其 中 之 一 
2.2.2 二 项 随机 变量 
将 一 枚 硬币 抛掷 ”次 ， 每 次 抛掷 ， 正 面 出 现 的 概率 为 忆 反面 出 现 的 概率 为 1-p， 而 


且 各 次 抛 括 是 相互 独立 的 . 令 了 为 n 次 抛 括 得 到 正面 的 次 数 ， 我 们 称 了 为 二 项 随机 
变量 ， 其 参数 为 和 p . 了 的 分 布 列 就 是 在 1.5 节 中 讨论 的 二 项 概率 : 


px (k) = 



































1 1 TYr 7 ki nn 一 下 
pxlk) = P(X = k) = 上 pll—p) ,万 =0,1,.…,n. 


(按照 传统 ， 我 们 用 k 代替 x ， 表 示 整 数值 随机 变量 了 的 取 值 . ) 对 于 二 项 随机 变量 ， 
利用 归 一 化 公理 可 以 得 到 


2, (zxa 一 P)n 一 1. 
在 图 2. 3 中 ， 用 图 像 表 示 某 些 特殊 情况 的 二 项 分 布 列 . 


px(A) px(A) 
二 项 分 布 列 , n=9, p=1/2 


二 项 分 布 列 ， 
?很 大 , ?很 小 





7 Ek 


2. 3 ”二 项 随机 变量 的 分 布 列 . 当 1/2 时 ， 分 布 列 是 相对 于 n/2 对 称 的 . 当 
p< 1/2 时 ， 相 应 的 分 布 偏 向 ?， 当 ?> 1/2 时 , 相应 的 分 布 偏向 4 
2.2.3 几何 随机 变量 


在 连续 抛 据 硬币 的 试验 中 ， 每 次 抛掷 ， 正 面 出 现 的 概率 为 p ,反面 出 现 的 概率 为 1-p 

而 且 各 次 抛掷 是 相互 独立 的 . 令 了 为 连续 地 抛掷 一 枚 硬币 ， 直 到 第 一 次 出 现 正面 所 
需要 抛掷 的 次 数 ， 了 就 称 为 几何 随机 变量 . 前 大 1 次 抛 括 的 结果 为 反面 向 上 ， 第 K 次 
抛掷 的 结果 为 正面 向 上 的 概率 为 (1 一 也 ”Pp， 因 此 了 的 分 布 列 为 


px lk) = (1— p)*-1p. k=1,2,..- 


几何 随机 变量 的 分 布 列 的 图 像 可 见 图 2. 4， 从 


l 
DD 


k=1 k=0 














可 知 这 是 合格 的 分 布 列 . 
px(h) 





图 2.4 几何 随机 变量 的 分 布 列 ，Px( 癌 =(1-m =12…) 是 几何 级 数 ， 递 减 
的 因子 为 1-p 

此 处 ， 利 用 抛掷 硬币 的 试验 恰巧 是 抓 住 了 事物 的 本 质 ， 更 一 般 地 , 连续 抛掷 硬币 的 试验 
序列 中 出 现 正面 可 以 解释 为 独立 试验 序列 中 的 一 次 试验 “成 功 ”, 这 样 几何 随机 变量 可 
以 解释 为 独立 试验 序列 中 直到 试验 第 一 次 “成 功 ” 所 需 的 试验 次 数 . 而 试验 “成 功 ” 的 
意义 是 随 着 所 讨论 的 问题 的 实际 背景 而 变化 的 . 例如 可 以 是 在 某 次 测验 中 通过 了 考试 ， 
在 某 次 搜索 中 发 现 目标 , 或 成 功 地 进入 计算 机 系统 等 . 


2.2.4 泊 松 随机 变量 
设 随机 变量 了 的 分 布 列 由 下 式 给 出 














A 
px (k) = a k=0,1,2,.…, 


画 分 布 列 的 取 正 值 的 参数 , 则 称 了 是 泊 松 随机 变量 ( 见 图 2. 5). 由 于 


A 六 
e*— =e @ 十 和 十 一 十 …: ) =e*e*=1, 
大! 2! 


k=0 
这 个 数列 符合 分 布 列 的 定义 . 


! 若 这 个 总 和 不 等 于 1, 就 与 概率 的 归 一 化 定律 


Ws 





其 中 入 是 去 


冲突 . 译 者 注 
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px(A) Dx(A) 


泊 松 分 布 列 , 和 =0.5 泊 松 分 布 列 , 和 =3 





QL 十 没 各 玉芝 区 全 揽 


图 2.5 对 应 于 不 同 的 和 的 泊 松 随机 变量 的 分 布 列 . 当 入 < 1 时 , 分 布 列 是 单调 递 
减 的 . 当 入 > 1 时 ， 分 布 列 随 着 4 的 递增 , 先 递增 后 递减 (可 参考 本 章 末 尾 的 习题 ) 


为 了 给 出 泊 松 随机 变量 的 直观 印象 ， 考 虑 当 二 项 随机 变量 的 参数 n 很 大 ，p 很 小 的 情 
况 ， 例 如， 令 了 为 字数 为 2 的 一 本 书 中 含有 打印 错误 的 字数 ,这样 ，X 是 二 项 随机 
变量 .但 是 , 由 于 一 个 字 被 打印 错误 的 概率 p 非常 小 ， 了 也 可 以 用 泊 松 分 布 列 刻画 ( 打 
错 一 个 字 相 当 于 抛掷 一 枚 硬币 出 现 正面 向 上 , 但 正面 向 上 的 概率 p 很 小 )， 类似 的 例 
子 很 多 , 例如 在 一 个 城市 中 一 天 中 发 生 车 祸 的 事故 数 .2 


































































































| ?普遍 认为, 第 一 个 关于 二 项 随机 变量 和 泊 松 随机 变量 之 间 联系 的 实证 例子 , 是 在 19 世 纪 后 半 时 用 泊 松 分 布 列 去 逼近 
| 波兰 骑兵 被 马 踢 伤 的 人 数 . 

















用 泊 松 随机 变量 刻画 这 样 的 现象 十 分 恰当 .更 确切 地 说 , 参数 为 和 的 泊 松 随机 变量 的 
分 布 列 是 二 项 随机 变量 分 布 列 的 很 好 的 逼近 : 


天 
三 入 入 
e 一 一 





2! . i 
阿 之 rr —p)"*, 大 一 0,1,..…. ,7n, 


其 中 入 = np，n 很 大 ，p 很 小 ， 在 这 种 情况 下 , 泊 松 分 布 列 使 得 模型 简单 ， 计 算 方便 . 
例如 ，n = 100, p= 0.01 用 二 项 随机 变量 计算 成 功 次 数 全 5 的 概率 为 


100! i 
—— .0.01°(1 — 0.01})™ = 0.002 90. 
95151 


利用 泊 松 随机 变量 计算 这 个 概率 得 到 近似 值 
er 二 = 0.003 06. 
其 中 和 =np= 100:0.01=1. 


在 本 章 最 后 的 习题 中 ， 我 们 将 给 出 泊 松 到 近 的 严格 证 明 . 第 6 章 将 作 进一步 解释 和 推广 ， 
并 且 将 结果 用 到 泊 松 过 程 中 去 . 





2.3 随机 变量 的 函数 
设 了 是 一 个 随机 变量 .对 工 施行 不 同 的 变换 ， 可 以 得 到 其 他 的 随机 变量 . 作为 例子 ， 
用 了 表示 今天 的 气温 (单位 为 摄氏 度 ，°C ). 作 变 换 Y = 1.8X+32， 得 到 华氏 温度 的 
读数 (CF ). 在 这 个 例子 中 了 是 了 的 线性 函数 

Y =gX)=aX+b, 
其 中 a 和 2 是 数值 ， 我 们 也 可 以 考虑 了 的 非 线性 函数 

Y= 

例如 可 以 考虑 对 数 度 量 ， 此 时 可 用 变换 gl 六) = 1loglX). 
设 ”= glX) 是 随机 变量 了 的 函数 ， 由 于 对 每 一 个 试验 结果 , 也 对 应 一 个 (了 7 的 ) 数值 ， 
故 了 本身 也 是 一 个 随机 变量 . 如 果 工 是 离散 的 随机 变量 ， 其 对 应 的 分 布 列 为 Px， 则 


上 也 是 离散 随机 变量 ， 其 分 布 列 可 通过 了 的 分 布 列 进行 计算 ， 实 际 上 , 对 固定 的 了 
值 ，PyYly) 的 值 可 以 通过 下 式 计 算 


pry(y)= >》 ， px(z). 


oa 全 
例 2. 1 可 以 利用 上 述 公式 计算 了 = |X| 的 分 布 列 ， 其 中 下 的 分 布 列 由 下 式 给 出 ， 
1/9， 若 xz 是 [-4,4| 中 的 整数 ， 
0， 其他， 
由 于 了 的 值 域 为 y==0,1,2,3,4 对 于 值 域 中 的 任意 只 需 将 满足 ?| = 的 所 有 


or 就 可 以 得 到 py(y) 的 值 . 当 天 0 的 时 候 ， 只 有 二 0 能 够 满足 条 件 
y= |0| = 0， 这样 











DX(Z) = 


(0) (0) . 
J E 和 — 
PY px 9 


对 于 y= 1,2,3,4， 有 两 个 x 值 满足 条 件 y= |z| 例如 ( 见 图 2. 6 的 图 示 说 明 ) 


| 


py(ll1) = px(—1) + px(1) = 


这 样 ， 了 的 分 布 列 为 


py(y) = 二 1/9， 者 y=0， 
0， 其 他 
px(2) py(Y) 





图 2.6 例 2.1 中 了 和 Y=|X| 的 分 布 列 
现在 看 男 一 个 随机 变量 Z = X* 为 了 求 得 2 的 分 布 列 , 我 们 既 可 以 将 它 看 成 了 的 平 


pz(z) = pxlZz) 
方 ， 也 可 以 看 成 ”= |X| 的 平方 . 利用 公式 {z|z2=:} 或 
pz(2)= >》 py(y) 
{y=*} ， 得 到 


2/9， 夺 z= 二 1,4,9,16, 
pz(z) 二 41/9， 若 z=0， 
0， 其他. 


2.4 期望、 均值 和 方差 


下 的 分 布 列 给 出 了 大 所 有 可 能 取 值 的 概率 ， 通常, 我 们 希望 将 这 些 信息 综合 成 一 个 能 
够 代表 这 个 随机 变量 的 数 .了 的 期 望 可 以 实现 这 个 目的 . 的 期 望 就 是 了 的 所 有 取 值 相 
对 于 它 的 概率 的 加 权 平 均 . 


为 了 更 好 地 理解 期 望 的 意义 ， 假 定 你 有 机 会 转动 一 个 幸运 轮 许多 次 . 每 次 转动 ， 幸 运 轮 
会 出 现 一 个 数 , 不 妨 设 为 mbm2 ,mn 中 的 一 个 ， 这 些 数 出 现 的 概率 分 别 为 
Pi,P2,… ,Pn。， 而 出 现 的 数 就 是 你 所 得 到 的 钱 数 ( 给 你 的 奖励 ).“ 每 次 ”转动 , 你 所 “期 
望 ”得 到 的 钱 数 是 多 少 ? 此 处 “每 次 ”和 “期 望 ” 都 是 一 些 不 确定 的 词汇 . 但 是 下 面 的 
解 释 可 以 把 这 些 词汇 的 含义 确定 下 来 . 


假定 你 一 共 转 动 幸运 轮 k 次 ， 而 其 中 有 后 次 转动 的 结果 为 mi 你 所 得 到 的 总 钱 数 为 
mi + mzkz 十 … 十 mnkn. 每 次 转动 所 得 到 的 钱 数 为 

















大 
现在 假定 4 是 很 大 的 一 个 数 ， 我 们 有 理由 假定 概率 与 频率 相互 接近 , 即 
Se 2 
Kk~P 2 一 1, 了 


这 样 你 每 次 转动 绊 运 轮 所 期 望 得 到 的 钱 数 是 
171 大 1 十 moko 十 … + mn kn 


天 
由 这 个 例子 的 启发 , 我 们 引进 下 面 的 定义 .3 


M = 


ee mpP1 一 722P2 十 十 mnpn: 



































Ed 








3 当 随机 变量 的 取 值 范围 为 可 数 无 限 集合 的 时 候 , 可 能 会 遇 到 这 样 的 情况 : 和 号 2Jz TPX (7) 没有 确切 定义 ， 
常 , 当 2z|z|PxX(z) < oo 的 时 候 ，X 的 期 望 值 有 确切 定义 , 它 的 值 是 一 个 有 限 数 并 且 等 于 级 数 2z TPX (7) 的 
部 分 和 的 极限 , 而 这 个 极限 值 与 求 和 号 内 各 项 的 次 序 无 关 ， ue 
作为 一 个 反例 , 考虑 随机 变量 7 的 取 值 范围 为 2 ;2 ，"…“, 相应 的 概率 分 别 为 2 ,2 ， ,此 时 级 数 
2z TPX (7) = co， 并 称 了 的 期 望 无 确切 定义 . 另 一 个 反例 是 ， 了 取 2* 和 一 28 的 概率 为 2 大 一 2,3,…… 
这 个 例子 中 了 的 期 望 也 无 确切 定义 , 其 原因 是 2z|z|Px(z) = Se， 尽管 这 个 随机 变量 是 相对 于 0 对 称 的 , 其 期 望 
值 似乎 可 以 定义 为 0. 

| 本 书 所 涉及 的 随机 变量 的 期 望 总 是 有 定义 的 , 因此 在 论证 中 默认 随机 变量 的 期 望 是 有 定义 的 . 


期 望 
设 随机 变量 了 的 分 布 列 为 px. 了 的 期 望 值 (也 称 期 望 或 均值 ) 由 下 式 给 出 : 
E[X| = 和》 rpx (7). 
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例 2.2 考虑 两 次 抛掷 一 枚 人 硬币 的 试验 ， 而 硬币 的 两 面 是 不 均匀 的 , 正面 向 上 的 概率 为 
3/4. 令 了 是 得 到 的 正面 数 ， 这 是 一 个 二 项 随机 变量 , "= 2,P=3/ 和 4 它 的 分 布 列 为 


(174)”, 若 = 0， 
p(k) = 0 A 看 有 = 
(3/4)°, 震 k= 2， 


故 其 均值 为 


TAN 1 3 3N” 24 3 
EIX]=0:.{=) +1:(2.=5.=)+2:{=) ====. 
1 4 4 4 16 3 


通常 将 X 的 均值 解释 为 了 的 代表 值 ， 它 位 于 了 的 值 域 中 间 的 茶 一 点 . 更 确切 地 ， 可 
以 将 分 布 的 均值 看 成 分 布 列 的 “重心 ”( 见 图 2. 7 的 解释 )， 特 别 ， 当 随机 变量 的 分 布 列 
具有 对 称 中 心 的 时 候 , 这 个 对 称 中 心 必定 为 这 个 对 称 随机 变量 的 均值 . 





重心 c 二 均值 =BIX] 
图 2.7 均值 作为 重心 的 解释 ， 设 在 一 根 杆 上 在 x 处 放 上 质量 为 px(7) 的 物质 ， 


pxtz) > 0， 所 谓 重 心 是 指 杆 上 的 平衡 位 置 c, 使 得 c 的 右边 的 力矩 等 于 c 的 左边 的 
力矩 即 满足 
>_ (zr — cpxlT} 三 人 


的 c， 因 此 “= >z rpxl7), 即 EIX] 等 于 了 的 质量 分 布 的 重心 


2.4.1 方差 、 矩 和 随机 变量 的 函数 的 期 望 规则 

期 望 是 随机 变量 及 其 分 布 列 的 重要 特征 ， 此 外 ， 还 有 其 他 重要 的 特征 量 . 例如 随机 变量 
丰 的 二 阶 矩 定义 为 随机 变量 X? 的 均值 ， 进 一 步 吴 阶 矩 PIX"] 定义 为 X" 的 期 望 值 
这 样 均值 本 身 就 刚好 是 一 阶 矩 


除了 均值 ， 随 机 变量 X 的 最 重要 的 特征 量 是 方差 ， 记 作 var(X)， 它 由 下 式 定 义 





























var(X) =E[(X— EX])’. 


由 于 (XX 一 EIX])” 只 能 取 非 负 值 ， 故 方差 只 能 取 非 负 值 . 方差 提供 了 X 在 期 望 周围 分 散 
程度 的 一 个 测度 . 分 散 程度 的 另 一 个 测度 是 标准 差 , 它 由 下 式 定义 





ox = VvarlX). 


标准 差 具有 实用 性 ， 因 为 它 的 量 纲 与 了 的 相同 . 例如 不 是 以 米 为 单位 的 长 度 ， 方 差 的 
单位 为 平方 米 ， 而 标准 差 的 单位 为 米 . 

计算 方差 的 一 种 方法 是 先行 计算 随机 变量 (X 一 E[X])? 的 分 布 列 , 然后 利用 期 望 值 的 定 
义 计算 的 方差 ，(X 一 EIX])* 是 随机 变量 在 的 函数 ， 可 利 用 前 面 提供 的 方法 计算 

(X 一 E[X])* 的 分 布 列 ， 


例 2.3 考虑 例 2.1 中 的 随机 变量 五 它 的 分 布 列 为 
1/9， 着 z 是 [-4,4 中 的 整数 ， 
0， ”其 他 . 


此 时 ， 均 值 FIX] =0， 这 可 以 从 分 布 的 对 称 性 看 出 , 也 可 以 从 期 望 的 定义 直接 计算 得 到 








E[X] = > _ zpx(7) = 5 》z=0. 
I r=—4 
令 Z = (XX 一 E[X])?= XX 在 例 2. 1 中 , 已 经 得 到 
0， 汪 名 =l1 


p(s) = 41/9, 阁 z=, 


这 样 ， 了 了 的 方差 为 


、 1 2 2 
rar(X) = EIZ| = zpzlz) 二 0 一 十 1 一 十 4: 一 十 9: 一 十 16: 
varlX) [2] 2 pz( ) | 


2|8 





计算 var(X) 时 并 不 需要 先行 计算 (X 一 EIX])” 的 分 布 列 , 而 男 有 更 加 便利 的 方法 ， 这 
种 方法 根据 下 面 的 规则 得 到 . 


随机 变量 的 函数 的 期 望 规则 





设 随 机 变量 了 的 分 布 列 为 px， 又 设 9(X) 是 了 的 一 个 函数 , 则 9 六) 的 期 望 由 下 
列 公式 得 到 


Elg(X)] = 》 9g(z)px(z) 


为 验证 此 公式 ， 令 Y= g(X) 并 利用 2. 3 节 导 出 的 公式 
py (ly) = > px (7), 
{zlg(z)=y)} 
得 到 
Elg(X)] = E[Y] 
二 > ypy (y) 
y 
= y 和 PXT) 


y {zlg(r)=y} 


一 于 有 ypx (7) 


y {rlg(r)=y} 


-> ba > glT) px (7) 


y {rlg(r)=y} 


= g(r)px(z). 


将 期 望 规则 应 用 到 了 的 方差 ， 我 们 得 到 


var(X) =E[(X— EX])’] = >_(z — ELX])?px(z). 





相似 地 ， 对 于 了 的 zn 阶 矩 ， 我 们 有 
E[X"| = > rpx (7z). 


I 


因此 在 计算 了 的 阶 矩 的 时 候 ， 我 们 不 必 先 求 X” 的 分 布 列 . 
例 2.3( 续 )” 设 随机 变量 X 的 分 布 列 由 下 式 给 出 ， 


1/9， 若 z 是 [-4,4] 中 的 整数 ， 
革 其 他 . 


PX(zZ) = 





利用 期 望 规则 得 到 


var(X) = EI[I(X— EX])’| 
= De ~ Bl) ox) 


-了 六 因为 DB 由- 


zw 二 一 4 


= (64+9+4+14+0+1+4+9+16) 





60 
一 人 
结果 与 早先 得 到 的 结果 是 一 样 的 . 
先前 已 经 提 到 ， 方 差 是 非 负 的 . 那么 是 否 可 为 0? 由 于 在 方差 的 公式 学:(* 一 E[X])?px(z) 
中 , 每 一 项 都 是 非 负 的 ， 为 了 使 得 这 个 和 式 为 0， 其 充 要 条 件 是 对 每 一 个 及 
(z 一 EIX]) px(z) = 0， 这 个 条 件 说 明 对 每 一 个 使 得 px(z) > 0 的 均 有 += EX1 这 说 
明 其 实 不 是 随机 的 , 随机 变量 不 等 于 EIX] 的 概率 为 1. 


方差 
随机 变量 了 的 方差 由 下 列 公式 所 定义 : 
var(X)=E[(X— EX])|. 
并 且 可 以 用 下 式 进行 计算 : 
var(X) = 》 (7 — E[X])?px(z). 


它 是 非 负 的 ， 其 平方 根 称 为 标准 差 , 记 为 ox. 


2.4.2 均值 和 方差 的 性 质 


ee 函数 的 期 望 规则 导出 一 些 均值 和 方差 的 重要 性 质 . 首先 考虑 随机 变 
了 的 医 








Y=aXt+tb, 
其 中 a 和 4 是 已 知 常数 ， 关 于 线性 函数 了 的 均值 和 方差 , 我 们 有 
= >》_(ar 十 站 px(T) 一 a 5 rpx(T)+b >》 px (zj = aE[X] +&b. 





var(Y 2 +b— ElaX +0) px(z) 
-De +b—aEX]— 0b) px(z) 
=a >_(z — E[X])px(z) 
el 
随机 变量 的 线性 函数 的 均值 和 方差 
设 了 为 随机 变量 ， 令 
Y =aX+b, 
其 中 a 和 2 为 给 定 的 常数 ， 则 
ElY] =aE[X] +b, var(Y) = avar(X). 
此 外 ， 我 们 还 将 证 明 如 下 一 个 方差 的 重要 公式 . 
用 和 矩 表 达 的 方差 公式 








var(X) = E[X?] — (E[X])?. 
这 个 用 和 矩 表 达 的 方差 公式 的 证 明 可 以 通过 下 列 等 式 完成 : 
var(X) = > (z — E[X]) px(z) 
-Ze z — 27E[X] + (ELX]) ) px(z) 
-2 px(: BX] spx(s) + (BLA)) 2 》 px(z) 


-Elx? | — 2(E[X]) + + (ELX]) 


= E[X’] — (ELX]):. 


es 除非 9(X) 是 一 个 线性 函数 ,一般 情况 下 El9(X) 不 等 
于 9g(ELX]). 








例 2.4( 平 均 速 度 和 平均 时 间 ) ”如 果 遇 到 好 天 气 (这 种 天 气 出 现 的 概率 为 0. 6), 爱丽 丝 
会 步行 2 英里 上 学 ， 步 行 速度 为 每 小 时 5 英里 (大 5). 天 气 不 好 的 时 候 ， 她 骑 摩 托 车 上 学 ， 
时 速 30 英 里 ( 广 30). 她 上 学 所 用 的 平均 时 间 是 多 少 ? 


正确 的 方法 是 先 计算 时 间 7 的 分 布 列 ， 


0.6，t 上 一 275 小 时 ， 
pr /5 小 时 


0.4, 


t = 2/30 小 时 ， 
然后 计算 均值 


2 4 
EIT] = 0.6. 二 十 0.4 
J 


30 “15 小 时 . 


然而 ， 下 面 的 计算 是 错误 的 : 先 计算 平均 速度 


ED 站 =0.6:5+04:30=15 英里 /小 时 
然后 声称 平均 时 间 为 


总 之 ， 在 这 个 例子 中 


2.4.3 某 些 常用 的 随机 变量 的 均值 和 方差 
我 们 将 失 








导出 一 些 重要 的 随机 变量 的 均值 和 方差 , 在 本 课程 中 经 常会 遇 到 这 些 公式 . 
例 2. 5( 伯 努 利 随机 变量 的 均值 和 方差 ) ”考虑 抛掷 一 枚 硬币 ， 设 正面 出 现 的 概率 为 p 
,反面 出 现 的 概率 为 1-p ， 伯 努 利 随机 变量 的 分 布 列 为 








2 者 =1， 
px(k) = 
1 一 靳 涛 下 = 站 
下 面 给 出 了 它 的 均值 、 二 阶 窍 和 方差 的 计算 公式 
E[X 和 了 十 0. 人 
E[X 3] = 2.p+ 02. (1— p)= Dp, 
var(X) = ee ek E[X]))* =p p* = p(1 p). 
例 2. 6 (离散 均匀 随机 变量 ) 


设 涉及 的 试验 是 抛掷 一 个 均匀 的 具 
均 点 数 和 方差 是 多 少 ? 我 们 将 试验 结果 看 成 一 个 随机 变量 








有 6 个 面 的 仍 子 . 其 平 
, 它 的 分 布 列 为 


116， 落 并 =123456 





px(k) = 
0， ”其 他 . 
由 于 分 布 列 相对 于 3. 5 是 对 称 的 ， 我 们 得 到 ELX] = 3.5， 关 于 方差 , 我 们 有 
varlX)= E[X = (E[X ]) 
= (2 十 2 十 吕 十 娄 十 路 十 印 ) - (3.5)? 
6 


这 样 ， 可 得 到 var(X) = 


上 面 的 随机 变量 是 离散 均匀 随机 变量 的 特殊 情况 . 按 定义 离散 均匀 随机 变量 的 取 值 范 
由 相 邻 的 整数 所 组 成 的 有 限 集 , 而 取 每 个 整数 的 概率 都 是 相等 的 ， 这 样 它 的 分 布 列 





1 
一 


0， 其 他 ， 


其 中 ab 是 两 个 整数 ， 作 为 随机 变量 的 值 域 的 两 个 端点 ,a < b (4 的 分 布 列 的 图 示 见 
图 2. 8) . 由 于 它 的 分 布 列 相对 于 (4 +9)/2 是 对 称 的 ， 其 均值 为 


a+b 


为 计算 的 方差 ， 先 考虑 1 和 b=n 的 简单 情况 ， 利 用 归纳 法 可 以 证 明 
3 = (n+ 1) (2n 二 1) 


具体 证 明 过 程 留 作 习 题 )， 这 样 利 用 一 、 二 阶 和 矩 ， 可 得 到 X 的 方差 


var(X) = E[X’] — (EI[X])’ 


E[X] = 





Si 


1 1, 2 
二 一 (nn 十 1)(2n 十 1) 一 一 (n 十 1)? 
6 4 


oD 
n*—1 
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DX( 甩 





图 2.8 在 a 和 2 之 间 均 匀 分 布 的 随机 变量 的 分 布 列 ， 它 的 均值 和 方差 为 


十 (一 afp 一 wa 二 2 
ER 
12 





对 于 a 和 2 的 一 般 情 况 ， 实 际 上 在 区 间 [a 处 上 的 均匀 分 布 与 在 区 间 [1, 5-at1] 上 的 
分 布 之 间 的 差异 , 只 是 一 个 分 布 是 另 一 个 分 布 的 平移 , 因此 两 者 具有 相同 的 方差 (此 处 区 
间 [a, 名 是 指 处 于 a 和 5b 之 间 的 整数 的 集合 )。 这 样 ， 在 一 般 情况 下 ,了 的 方差 只 需 将 
简单 情况 下 公式 中 的 2 蔡 换 成 六 srl， 即 




















(一 a+l-l (一 ao 一 a+2) 
varl X) = 
12 12 


例 2.7( 泊 松 随 机 变量 的 均值 ) 设 了 的 分 布 列 为 泊 松 分 布 列 ， 即 





px(k) =e 有， k=0,1,2,.…, 


其 中 和 > 0 为 常数 .其 均值 可 从 下 列 等 式 得 到 


二 
~ 入 

= 》_,ke “了 (k= 0 这 一 项 为 0) 
ke 


最 后 一 个 等 式 利用 了 泊 松 分 布 列 的 归 一 化 性 质 . 


相似 的 计算 指出 泊 松 随机 变量 的 方差 为 ( 见 本 章 2.7 节 的 例 2. 20). 在 以 后 的 章节 中 将 
用 不 同 的 方法 导出 这 个 事实 . 


2.4.4 利用 期 望 值 进行 决策 


设想 有 一 个 项 目 ， 有 几 种 处 理 方 案 ， 而 每 种 处 理 方案 都 有 随机 的 回报 , 那么 用 什么 样 的 
准则 去 最 优 地 选择 处 理 方 案 呢 ? 期 望 值 是 一 个 合理 且 方 便 的 准则 . 如 果 把 期 望 回 报 看 成 
人 长 期 重复 执行 的 平均 回报 , 那么 选择 具有 最 大 期 望 回 报 的 策略 是 合理 的 . 
下 面 是 一 个 例子 . 


例 2.8 (智力 测验 ) 这 是 一 个 具有 随机 回报 的 实施 方案 最 优选 择 的 典型 例子 . 


在 一 个 智力 游戏 中 一 共有 两 个 问题 需要 回答 , 但 游戏 规则 要 求 你 选择 一 个 问题 作为 首先 
回答 的 问题 ， 问 题 1 比 较 容 易 , 你 能 够 正确 回答 的 概率 为 0. 8， 回 答 正 确 就 能 够 得 到 100 
美元 的 奖金 . 问题 2 比较 难 ， 你 能 够 正确 回答 的 概率 为 0. 5. 回答 正确 就 能 够 得 到 200 美 元 
的 奖金 . 若 你 选 定 一 个 首先 回答 的 问题 却 不 能 正确 地 回答 ， 你 不 但 不 能 拿 到 奖金 , 而 且 
也 不 容许 回答 第 二 个 问题 ， 若 你 能 够 正确 地 回答 第 一 个 问题 , 就 还 有 机 会 回答 第 二 个 问 
题 . 为 了 使 奖金 总 和 的 期 望 值 最 大 , 你 应 该 选择 哪 一 个 问题 作为 首先 回答 的 问题 ? 

这 个 问题 并 不 简单 ， 高 回报 必 有 高 风险 ， 和 希望 首先 回答 问题 2， 奖 金 多 , 但 是 问题 比较 


难 ， 并 且 要 冒 着 不 让 回答 问题 1 的 风险 . 我 们 将 所 得 到 的 奖金 总 额 作 为 随机 变量 五 并 
且 计 算 两 种 可 能 的 回答 问题 的 次 序 下 的 期 望 值 EIX] 〈( 见 图 2. 9). 
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$ 100 
$ 300 $ 300 
首先 回答 问题 1 首先 回答 问题 2 


图 2.9 智力 测验 问题 中 的 两 种 实施 方案 的 序 贯 树 形 图 说 明 
(a) 先 回答 问题 1: 此 时 了 的 分 布 列 为 (参考 图 2. 9 的 左边 ) 
px (0) = 0.2, px(100) = 0.8 .0.5. px(300) = 0.8: 0.5, 
由 此 得 到 
E[X] = 0.8.0.5.100 十 0.8.0.5.300 = 160( 美 元 )， 
(b) 先 回答 问题 2: 此 时 了 的 分 布 列 为 (参考 图 2. 9 的 右边 ) 
Pxf0) = 0.5, px(200) = 0.5: 0.2, px(300) = 0.5: 0.8, 
由 此 得 到 
E[X| 一 0.5.0.2.200 二 0.5.0.8.300 = 140 (美元 ). 
这 样 看 来 ， 首 先 回答 比较 容易 的 问题 1 比较 合算 . 
现在 将 这 个 具体 的 例子 推广 成 一 般 的 问题 .用 Pl 和 Pz 分 别 表示 正确 回答 问题 1 和 问题 


2 的 概率 ,用 1 和 vz 分 别 表示 正确 回答 问题 后 所 得 到 的 奖金 ， 若 先 回答 问题 1, 则 所 得 
到 的 奖金 总 额 为 























E[X] = Pi(l — pa)vi + pip2 (v1 + v2) = piv1 + Pip2v2, 
而 先 回答 问题 2， 所 得 到 的 奖金 总 额 为 

E[X] = pzll — pi)v2 + pip2 (v1 + v2) = pov2 十 P1P2V1. 
这 样 ， 最 优 策略 为 先行 回答 问题 1 的 充 要 条 件 是 


P1v1 + Pip2v2 之 pa2V2 + D1Pa2V1， 








或 等 价 的 条 件 


PIV1 ~ P2v2 
1 — PD i Pa 


这 样 ， 每 一 个 问题 都 有 一 个 指标 Pv/(1 一 了 ,其 中 p 就 是 正确 回答 问题 的 概率 , v 就 是 


正确 回答 问题 以 后 所 得 到 的 奖金 ，Pv/(1 一 耻 的 值 大 , 相应 的 问题 就 应 该 优先 回答 .这 
个 问题 还 可 以 推广 到 多 于 两 个 问题 的 情况 ( 见 本 章 后 面 的 习题 ). 

















2.5 多 个 随机 变量 的 联合 分 布 列 


在 一 个 试验 中 经 常 涉及 几 个 随机 变量 .例如 ， 在 医疗 诊断 中 , 通常 涉及 几 个 试验 指标 ， 

或 者 在 网 络 中 我 们 常常 对 儿 个 网 关 的 负荷 感 兴趣 . 所 谓 多 个 随机 变量 是 指 在 同一 个 试验 
结果 之 下 产生 的 多 个 随机 变量 . 它们 所 涉及 的 样本 空间 和 概率 律 是 相同 的 . 这 些 随机 变 
量 的 取 值 是 由 试验 结果 确定 的 ， 因 此 它们 的 取 值 相互 联系 . 现在 考察 它们 取 值 的 概率 . 

本 节 将 分 布 列 和 期 望 推广 到 多 个 随机 变量 的 情况 . 以 后 我 们 还 要 讨论 条 件 和 独立 这 样 的 
概念 , 这 些 概念 是 与 第 1 章 中 讨论 的 概念 平行 的 . 

现在 设 在 同一 个 试验 中 有 两 个 随机 变量 了 和 它们 的 取 值 概率 可 以 用 它们 的 联合 分 
布 列 刻画 , 并 且 用 PX,Y 表示 . 设 (7,) 是 了 和 了 的 可 能 取 值 ,lz,y) 的 概率 质量 定义 
为 事件 {X=7 =y} 的 概率 : 

pxy(l7z,y) = P(X = 7,Y = Y). 


今后 我 们 使 用 简洁 的 表达 式 P(X =z,Y = 胃 , 尽 管 P(X =z}n{Y = 四 ) 或 P(X =z 
和 Y=) 是 更 准确 的 表达 式 . 


利用 联合 分 布 列 可 以 确定 任何 由 随机 变量 XY 和 了 所 刻画 的 事件 的 概率 . 例如 4 是 某 
些 (7z,y) 所 形成 的 集合 ， 则 


P((X,Y)€EA)= 》 pxr(z,y). 
(I,WEA 


事实 上 ， 我 们 还 可 以 利用 了 和 了 的 联合 分 布 列 计算 了 或 了 的 分 布 列 
px (lz) = >》 pxy(z， y), pyly) = >》 pxr(z， y). 
y I 
关于 px(z) 的 公式 可 以 从 下 面 的 等 式 得 到 : 


px(l7) = P(X = 7) 









































上 面 第 二 个 等 式 是 由 于 事件 {X=7} 是 所 有 形 如 {六 =, 站 =Y} 的 互 不 相 容 的 事件 之 
和 (y 取 遍 了 中 所 有 不 同 的 值 ). 关于 Py(y) 的 公式 的 验证 是 完全 类 似 的 ， 为 区 别 起 
见 ,我们 称 Px(7) 或 PYly) 为 边缘 分 布 列 . 


可 以 通过 表格 计算 了 或 了 的 边缘 分 布 列 .将 了 和 了 的 联合 分 布 列 排 成 一 个 二 维 表 ， 
px(7) 的 值 就 是 二 维 表格 中 与 x 对 应 的 那 一 列 的 所 有 值 的 总 和 .py(y) 的 值 的 计算 是 
完全 类 似 的 ， 下 面 的 例子 和 图 2. 10 说 明了 具体 操作 方法 . 








表格 形式 的 联合 
分 布 列 px yz, Y) 


. 7/20 
3 | 1/20 3/20 |1/20 E 
四 行 和 : 

mf \ 

2 | 1/20 | 2/20 | 3/20 |1/20 7/20 边缘 分 布 列 py() 
ph 

1 |1/20 1/20 3720 

] 2 3 4 





3/20 6/20 8/20 3/20 
列 和 |: 
边缘 分 布 列 pyx(22) 


图 2. 10 例 2. 9 中 计算 和 了 的 边缘 分 布 列 的 表格 法 说 明 . 了 和 了 的 联合 分 布 列 
PxYl7,y) 的 值 列 于 表格 中 . 在 表 中 与 (7,y) 相应 的 位 置 上 的 数 为 PXY\7, 四 对 于 给 定 
的 五 只 需 把 与 x 对 应 的 列 上 的 各 PXY\7,Y 值 相 加 就 得 到 Pxtz) 的 值 , 例如 
Px(2) = 6/20， 相 似 地 ， 届 了 二 是 四 万 只 需 把 与 y 对 应 的 行 上 的 各 Pxrf 切 值 相 加 
就 得 到 px 的 值 ,例如 PY(2) = 7/20 


例 2.9 设 了 和 了 的 联合 分 布 列 如 图 2.10 所 示 .了 的 边缘 分 布 列 的 值 就 是 表 中 相应 的 
列 和 , 而 了 的 边缘 分 布 列 的 值 就 是 表 中 相应 的 行 和 . 
2.5.1 多 个 随机 变量 的 函数 


存在 多 个 随机 变量 的 情况 下 , 就 有 可 能 从 这 些 随机 变量 出 发 构造 出 新 的 随机 变量 .特别 
地 , 从 二 元 函数 2 = 兴工) 可 以 确定 一 个 新 的 随机 变量 . 这 个 新 的 随机 变量 的 分 布 列 
可 以 从 联合 分 布 列 通过 下 式 计算 


pz(z2)= 2, pxr(z,y). 


{(z,y)|9(r,y)=2} 














进一步 地 ， 关 于 随机 变量 的 函数 的 期 望 规则 可 以 推广 成 下 列 形式 
E[g(X,Y)] = > > g(r, Wpxy(r,y). 





这 个 公式 的 证 明 与 单 变量 函数 的 公式 的 证 明 类 似 ， 特 别 地 , 当 g 是 形 如 aX +bY +c 


的 线性 函数 的 时 候 ， 我 们 有 
ElaX +bY +¢ =aE[LX] + bE[Y] +e 
其 中 a,b,c 均 为 给 定 的 常数 . 


例 2.9( 续 ) ”考虑 随机 变量 了 和 了 ,它们 的 联合 分 布 列 由 图 2. 10 给 出 ， 由 下 面 的 等 
给 出 一 个 新 的 随机 变量 





Z= 六 十 2Y. 
Z 的 分 布 列 可 以 通过 下 式 计算 
pz(z) = > Px,Y (7T,Y), 


{lz,y)|T+2y=>} 


利用 图 2. 10 的 数据 ， 得 到 2 的 分 布 列 


人 4) = 二 5)= 二 失去 过 to 
pz\ = 20 pz\ = 20; pz(3)= 0 pz\ 20’ Pzl1)= 0 
= em i 1 se 训 
pz(8) = 了 0， pz\ i pz(10) = 7 pz(11) = 50: pzl12 2)= 蕊 
Z 的 期 望 值 可 从 2 的 分 布 列 得 到 
[2] = >_ zpz(z) 
1 1. .9 2 _ 4 
4: 一 十 0: 一 十 6: 一 十 7: 一 
20 20 20 20 20 
3 ei 
20 ~ 20 20 20 “20 
一 了 .55. 
另外 ， 也 可 以 利用 公式 
E[2Z] = E[X] + 2E[Y]. 
利用 图 2. 10 的 数据 ， 先 求 出 了 和 上 的 期 望 
3 6 8 3 51 
Dn ee ,EE We PO WO 
20 20 20 20 20 
i , 3 7 7 3 50 
二 1 一 十 2: 一 十 3- 一 十 4- 一 二 一， 
| ] 20 20 20 20 20 
故 
5 50 
a ,ed 
20 20 


2.5.2 多 于 两 个 随机 变量 的 情况 


了 





设 有 三 个 随机 变量 五 万 2 ， 其 联合 分 布 列 的 定义 是 类 似 的 ， 即 
pxYy2(T,Yy,2) =P(X =7,Y =Yy,2 = 2), 
其 中 (lz,y,z) 是 (X,Y,2) 的 所 有 可 能 的 取 值 . 相应 地 可 以 得 到 边缘 分 布 列 ， 例 如 
PXY(T,Y) = 2 PXYZ(T,Y, 2), 
px (7z) = > 人 PXY.,2(T,Y, 2). 
y | 
关于 随机 变量 的 函数 的 期 望 规 则 为 
E[g(X,Y,2)] = > > > g(r,y, 2)pxy,z(T, Y, 2), 
Pi 


并 且 ， 如 果 g 是 形 如 aX + 好 +cZ+d 的 线性 函数 ， 则 
ElaX +bY +cZ+d =aE[lX|+ bEIY]+cEIZ|+d. 


、 步 地 ， 上 面 的 结果 可 以 推广 到 三 个 以 上 随机 变量 的 情况 . 例如 设 六 1, 六 2,…… ,Xn 为 
个 随机 变量 , ,92,… ,an 为 2 个 常数 ， 我 们 有 


Elal Xi 轩 玫 a2X1 TT anXn| 一 aElX1| 下 a2ElXa| sh anE[Xnl. 
例 2. 10( 二 项 随机 变量 的 均值 ) 你 的 概率 班 上 有 300 个 学 生 ， 每 个 学 生 有 1/3 的 概率 
可 得 到 成 绩 A ,并 且 相 互 独 立 ， 记 了 为 班 上 取得 A 的 学 生 数 . 了 的 平均 数 为 多 少 ? 记 


1， 如 果 第 i 个 学 生得 A， 
0， 其 他 . 


这 样 ，X1, 六 2,…* ,Xn 是 独立 的 伯 努 利 随机 变量 序列 , 其 公共 均值 为 了 = 1/3， 它们 的 和 
i 

是 班 上 取得 A 的 人 数 .， 由 于 了 是 n 次 独立 重复 试验 中 “成 功 ” 的 次 数 , 它 是 二 项 随机 

变量 ， 其 参数 为 n 和 书 

利用 了 是 诸 随 机 变量 Xi 的 线性 函数 ， 我 们 有 


300 


-De -》 =- 300 . 3 = 100 


i=1 


We 问题 ， 设 班 上 有 2 个 学 生 , 每 个 学 生得 A 的 概率 为 p 
， 见 




















n 


E[X| = > E[X;] = p = np. 
i=] 


1 一 1 





例 2. 11( 帽 子 问题 ) 假设 一 共有 个 人 , 将 他 们 的 帽子 放 在 一 个 盒子 里 , 每 个 人 随机 
地 从 中 拿 起 一 个 帽子 (每 个 人 只 拿 一 个 帽子 ， 并 且 人 和 帽子 的 各 种 对 应 都 是 等 可 能 的 ). 
拿 回 自己 的 帽子 的 人 数 的 平均 数 是 什么 ? 


对 于 每 个 人 7 ， 如 能 拿 到 自己 的 帽子 ， 则 定义 Xi = 1， 否则 Xi= 0. 由 于 
P(Xi=1)=1/n 和 P(Xi=0)=1-1/n Xi 的 平均 值 为 


_ 1 1 1 
i 
n n n 








可 知 


关于 联合 分 布 列 的 小 结 

设 了 和 了 为 在 条 个 试验 中 的 随机 变量 . 
。 了 和 地 的 联合 分 布 列 PXY 由 下 式 定义 
pxy(z,y) =P(X = 7,Y =7). 
。 和 和 了 的 边缘 分 布 列 可 由 下 式 得 到 


PxtT) = >》 pxr(z， y), pyly) = >》 pxy(z， y). 
y I 








。 工 和 了 的 函数 gl(X,Y) 是 一 个 随机 变量 ， 并 且 
Elg(X,Y)] = >》 >_ g(r,y)pxr(z,y). 
r y 
若 8 是 线性 的 ， 且 9=aX 二 bY 十 c, 则 
ElaX +bY +¢ =aE[X] + bE[Y] +c. 


。 上 面 的 结论 可 以 自然 地 推广 到 两 个 以 上 的 随机 变量 的 情况 . 





2.6 条 件 


在 第 1 章 中 ， 我 们 已 经 指出 条 件 可 以 给 某 些 事件 提供 补充 信息 , 当然 条 件 也 可 以 对 随机 
变量 取 某 些 值 提供 某 些 补充 信息 . 我 们 将 引进 随机 变量 条 件 分 布 列 的 概念 , 此 处 的 条 件 
是 指 茶 个 事件 的 发 生 或 其 他 随机 变量 的 值 的 给 定 . 本 节 将 讨论 条 件 分 布 列 的 性 质 .实际 
人 我 们 只 是 根据 随机 变量 的 特点 ， 重 新 细 述 一 裔 ， 引 进 一 些 
新 的 记号 而 已 . 


2. 6.1 某 个 事件 发 生 的 条 件 下 的 随机 变量 
在 某 个 事件 4 ( P(4) > 0 ) 发 生 的 条 件 下 ， 随 机 变量 了 的 条 件 分 布 列 由 下 式 定义 











P({X = 7z}N A) 
P(A) 


注意 ， 对 于 不 同 的 % {X= 本 4 是 互 不 相 容 的 事件 , 它们 的 并 为 4 因此 
P(A)} = >_P({X =2}NA4). 


pxla(T) = P(X = 7|A) 











比较 得 到 的 两 个 式 子 ， 可 以 看 出 
》 pxla(z) =1, 





故 Pxla 符合 分 布 列 的 要 求 . 


条 件 分 布 列 的 计算 也 与 无 条 件 分 布 列 的 计算 一 样 , 将 满足 X =z 并 且 属 于 4 的 试验 结 
果 的 概率 相 加 ， 最 后 除 以 P(44), 便 得 到 PxIal?) 的 值 . 


例 2.12 令 下 为 抛掷 一 个 均匀 的 6 面体 从 子 所 得 到 的 点 数 , 4 表示 抛掷 后 得 到 偶数 点 
的 事件 ， 利 用 前 面 得 到 的 公式 


pxia(k) = P(X = 8 抛掷 后 得 到 偶数 ) 
_ P(X = k 且 XX 是 偶数 ) 
P( 抛 括 后 得 到 倘 数 ) 
1 和 和 下 本 旬 本 岂 
0， ”其 他 . 








例 2.13 ”一 个 学 生 参 加 茶 种 测验 , 他 可 以 多 次 重复 地 参加 测验 ， 但 最 多 不 能 超过 了 
次 . 每 次 测验 以 概率 p 通过 ， 而 且 与 前 几 次 的 测验 结果 独立 ， 假 定 学 生 已 经 通过 的 条 





件 下 ， 他 测验 次 数 的 分 布 列 是 什么 ? 
令 4 是 学 生 最 终 通 过 测验 的 事件 (他 最 多 参加 次 测验 ) .我 们 引进 随机 变量 XY， 了 


表示 为 了 通过 测验 所 需要 参加 测验 的 次 数 ( 假 定 容许 他 无 数 次 参加 测验 ) .了 是 一 个 几何 
随机 变量 ， 其 参数 为 p . 刻画 条 件 的 事件 是 4= {XX nj 这 样 


n 
PT Sl —p)™1p, 
m=1 


从 而 ， 学 生 测 验 次 数 的 条 件 分 布 列 为 

















i 天 一 工 
本 和 
pxlA(k) = 2 人 一 四” 了 
0， 其 他 ， 


见 图 2. 11 的 说 明 . 


px( 问 





图 2. 11 例 2. 13 中 计算 条 件 分 布 列 Pxla(*) 的 图 示 说 明 . 首先 将 了 的 无 条 件 分 布 列 
Px(l*) 进行 修改 : 将 所 有 不 在 4 中 的 k ， 其 分 布 列 的 值 清 成 0。 然 后 将 所 有 的 分 布 
列 的 值 除 以 PL, 进行 归 一 化 ， 得 到 条 件 分 布 列 


图 2. 12 给 出 了 计算 条 件 分 布 列 更 一 般 的 说 明 . 





和 


图 2. 12 计算 条 件 分 布 列 PxlHlz) 的 图 示 说 明 . 对 每 一 个 x ,将 属于 事件 
{下 =z} 站 4 的 试验 结果 的 概率 相 加 , 再 除 以 P(4) 以 归 一 化 ， 得 到 PxIa(?) 的 值 


2.6.2 给 定 男 一 个 随机 变量 的 值 的 条 件 下 的 随机 变量 


设 某 一 个 试验 中 有 两 个 随机 变量 XY 和 了 .我 们 假定 随机 变量 了 己 经 取 定 一 个 值 y ( 
Prty) > 0), 这 个 y 值 提供 了 关于 X 取 值 的 部 分 信息 ， 这 些 信息 包含 于 了 的 给 定 了 
i PxlY 中 . 所 谓 条 件 分 布 列 就 是 _Pxl4， 其 中 事件 4 就 是 事件 

yf: 














pxr(lz|y) = P(X = z|Y = 2). 


利用 条 件 概率 的 定义 ， 我 们 有 





i = 
EX 一 PlY = 2) 加 py ly) | 
现在 我 们 固定 y 的 值 ( Wy 考察 x 的 函数 PxIrtz| 功 这 个 函数 符合 了 的 分 
布 列 的 要 求 : 对 每 个 x ，PXIY(zTIy) 富 0, 并 且 将 这 些 值 累加 后 得 1， 另 外 ， 作为 X 的 函 
数 , 其 形状 与 PX,Y(T, 引 相似 ， 两 者 相差 一 个 因子 py(y), 这 个 因子 使 得 PXIY(Zly) 满足 


条 件 





>_ pxly (zly) 二 1]. 
I 


图 2. 13 展 示 了 条 件 分 布 列 的 特性 . 

















条 件 分 布 列 px y(213) 






将 联合 分 布 列 切片 


成 为 条 件 分 布 列 pyy(4| 功 条 件 分 布 列 py y(2|2) 





条 件 分 布 列 Dx| ry(2|1) 





联合 分 布 列 DPK yz 切 


图 2. 13 计算 条 件 分 布 列 PxlY(7ly) 的 图 示 说 明 . 对 每 一 个 可 以 将 PXIY(7lY) 看 成 
联合 分 布 列 PXY(7,Y) 沿 Y=y 的 一 个 切片 ， 并 且 归 一 化 后 使 得 
》 pxy(zly) =1 
利用 公式 
pxY (7,Y) = py (YPpxly (Ty), 
或 利用 
pxY (7,Yy) = px (T)pr|x (yz), 


es 该 方法 类 似 于 第 1 章 中 的 序 贯 树 形 图 的 乘法 规则 . 下 面 提供 一 个 
列 村 . 


例 2. 14 霍 许 对 教授 在 为 学 生 答疑 时 常 有 答 错 问题 的 现象 . 她 每 次 答 错 问题 的 概率 为 
1/4， 而 且 各 题 的 答疑 是 独立 的 ， 每 堂 课 上 , 同学 提问 的 问题 可 能 有 0, 1 或 2 个， 相应 的 
概率 均 为 1/3， 记 了 ， 了 分 别 为 一 堂 课 上 同学 提问 的 次 数 和 回答 错误 的 次 数 . 为 得 到 了 
和 了 的 联合 分 布 列 , 我 们 必须 对 每 一 组 值 (zy) 计算 概率 P(X =z,Y = 办 .这 可 以 利用 
序 虽 本 形 图 的 对 法 规则 ( 见 图 2. 14 的 说 明 )， 例 如 ， 在 课堂 上 , 只 提出 一 个 问题 并 回答 错 

















、 , 1 
pxY(ll,1)= pxlz)py x(y|z) 一 3 


概率 : 1/48 
概率 : 6/48 


概率 : 9/48 


| | 不 | 
wj | | 





1/3 
概率 : 16/48 (0) 1 2 企 
列表 形式 的 联合 
X: 提出 的 问题 数 六 回答 错误 的 分 布 列 Px YX 全 
问题 数 


图 2. 14 计算 例 2. 14 中 的 联合 分 布 列 Pxrtz, 切 
0 
次 你 0 


P( 短 许 对 教授 在 堂上 有 回答 错误 的 静 象 ) 一 2XY( TD 二 PXY(2, IT 十 2xXY(2,2) 


本 
MS MB MS 


条 件 分 布 列 也 可 以 用 于 计算 边缘 分 布 列 ， 即 有 
px (7) = 》 pxy(7,Y) = >》 py (Wpxly(zly). 
y y 





这 个 公式 就 是 第 1 章 中 的 全 概率 公式 ， 不 过 用 了 不 同 的 记号 而 已 . 下 面 是 一 个 例子 . 
例 2.15 考虑 计算 机 网 络 中 的 一 个 信息 传送 器 .下 面 是 有 关 的 随机 变量 . 

无 给 定 消息 的 传送 时 间 天 给 定 消息 的 长 度 . 
我 们 知道 给 定 消息 长 度 的 条 件 下 传送 时 间 的 分 布 列 和 消息 长 度 的 分 布 列 . 我 们 希望 找到 
传送 一 个 消息 的 时 间 的 (无条件 ) 分 布 列 . 
假定 一 个 消息 的 长 度 可 以 取 两 个 可 能 值 : y=10 和 yy = 10:( 单 位 ， 比特 ), 取 值 的 概率 
分 别 为 5/6 和 1/6， 这 样 





用 ， 洲 v1, 
1y6， 和 02 
传送 时 间 依 赖 于 消息 的 长 度 和 当然 网 络 的 拥塞 程度 , 具体 来 说 , 传送 时 间 为 107Y 的 概 


1. 全 个 传送 时 间 为 10-3Y 的 概率 为 1/3, 传送 时 间 为 10-2Y 的 概率 为 1/6， 这 样 ， 我 
门 得 型 


py (y) = 








1/2， 关 去 = 10-2, 1/2， 大 元 三 1 
pxXIy(zl105) = $1/3， 若 z=10-1,， pxly(zl109 = $41/3， 若 z= 10， 
JI 有 有， 和 Rs 1/6， 若 z = 100. 


为 找到 XY 的 分 布 列 ， 我 们 利用 全 概率 公式 


px (lz) = Dpy (Vpxly (zy), 
y 


得 到 
i 5 、 5 1 ee 1 1 
人 
Px 6 2 FX :TT63 ?7 6 6 6 2 
可 1 1 
px(10)= =:=, px(100) = 二 := 二. 
6 3 6 6 


最 后 , 我 们 可 以 将 条 件 分 布 列 的 概念 推广 到 含有 两 个 以 上 的 随机 变量 的 情况 , 例如 
PxYlz(z,y|2) 或 PxIYztzly,z) 的 情况 . 这 种 概念 和 方法 的 推广 是 没有 难度 的 . 


关于 条 件 分 布 列 的 小 结 
设 了 和 了 为 条 一 试验 中 的 两 个 随机 变量 . 


。 条 件 分 布 列 与 无 条 件 分 布 列 完全 类 似 , 其 差别 只 是 前 者 是 在 已 知 茶 事件 发 生 的 
条 件 下 的 随机 变量 的 分 布 列 . 


。 本 为 某 事件 ，P(34) > 0， 随 机 变量 了 在 给 定 4 发 生 的 条 件 下 的 条 件 分 布 
列 大 


PXT) = P(X = z|A), 
并 且 满 足 
》_ pxlalz) 一 














。 设 ,An 是 一 组 互 不 相 容 的 事件 ， 并 且 形 成 样本 空间 的 一 个 分 割 。 进 一 
步 假 定 Pi >0 对 一 切 工 成 立 ， 则 


| px(l7) = P(Ai)px|alT). 
px|AlZ) 一 PLX = T|A), 2 | 


(这 是 全 概率 定理 的 一 种 特殊 情况 . ) 进 一 步 假 定 事件 8 满足 对 一 切 7 ， 
P(AiNB)>0， 则 





px 如 | IT) 一 >》， PI_4; IB)px AMB\ IT). 
i=1 


给 定 Y=V 的 条 件 下 了 的 条 件 分 布 列 与 联合 分 布 列 之 间 有 下 列 关系 
pxY (7,Y) = py (WPpxlY (TIy). 


给 定 了 之 下 的 了 的 条 件 分 布 列 可 以 通过 以 下 公式 计算 了 的 边缘 分 布 列 : 





px(7) = 》 py (ypxy (zly). 
y 


。 上 面 的 结论 可 以 自然 地 推广 到 两 个 以 上 的 随机 变量 的 情况 . 


2. 6.3 条 件 期 望 
条 件 分 布 列 就 是 一 个 通常 的 分 布 列 , 不 过 它 的 样本 空间 由 条 件 所 限定 的 试验 结果 组 成 ， 
相应 的 事件 的 概率 变 成 条 件 概 率 ， 同 样 的 原因 ， 条 件 期 望 就 是 通常 的 期 望 , 不 过 试验 结 
果 的 空间 由 条 件 所 限定 的 试验 结果 所 组 成 . 相应 的 概率 和 分 布 列 都 换 成 条 件 概率 和 条 件 
分 布 列 ( 关 于 条 件 方差 的 处 理 是 完全 类 似 的 ). 下面 列 出 有 关 的 定义 和 性 质 . 

关于 条 件 期 望 的 小 结 

设 和 了 为 条 一 试验 中 的 两 个 随机 变量 . 

。 4 为 某 事件 ，P(4 > 0， 随 机 变量 X 在 给 定 4 发 生 的 条 件 下 的 条 件 期 望 











E[X|4] = > TDPxX|A(T). 


对 于 函数 ql 六)， 我 们 有 


Elg(X)|A] = > g(T)px A(T). 


工 


。 给 定 =y 的 条 件 下 工 的 条 件 期 望 由 下 式 定义 


E[X|Y = = bb rpxy (zy). 
。 设 抽 ,… ,An 是 互 不 相 容 的 事件 并 且 形 成 样本 空间 的 一 个 分 割 , 假定 
P(4) > 0 对 一 切 7 成 立 ， 则 





E[X] = 2_ P(Ai)E[X|Ai] 
i=] 


进一步 假定 事件 8 满足 对 一 切 7 ，PlA4inB)> 0， 则 
EI[X|B] = 》 P(Ai|B)EIX|AiN Bl. 
i 一 1 


。 我 们 有 
E[X] = 》 py (ELIX|Y = 引 . 
y 
上 述 最 后 的 三 个 等 式 适 用 于 不 同 的 场合 ， 但 它们 本 质 上 是 相互 等 价 的 . 它们 都 可 以 称 为 
全 期 望 定 理 . 这 些 定理 表达 了 这 样 的 一 个 事实 : “无 条 件 平均 可 以 由 条 件 平均 再 求 平均 


得 到 . ”通过 全 期 望 定理 可 利用 条 件 分 布 列 或 条 件 期 望 计算 无 条 件 期 望 EIX1 现在 验证 
三 个 公式 中 的 第 一 个 公式 ， 先 写 出 全 概率 公式 





px(7) = >_ P(Ai)psla (7|4i), 
i=1 


再 在 两 边 乘 x 并 对 一 切 x 求 和 ， 得 到 
E[X| = > rpx (7z) 


三 ;ye P(Ai)pza, (TIAi;) 
i=] 


I 


= P(A4) > zpal4i(z|4i) 
i=1 I 

= YPp(A)ELX|A 
i=1 


其 他 两 个 公式 的 验证 是 类 似 的 . 


例 2.16 设 波 士 顿 的 一 台 计 算 机 通过 数据 网 络 发 送 消 息 : 发 往 纽约 的 概率 为 0. 5, 发 往 
芝加哥 的 概率 为 0. 3， 发 往 旧 金山 的 概率 为 0. 2. 传输 的 时 间 不 是 一 个 随机 变量 ， 发 往 
纽约 时 的 平均 时 间 为 0. 05 秒 , 芝加哥 为 0. 1 秒 ， 旧 金山 为 0. 3 秒 . 利用 全 期 望 公式 很 容易 
得 到 











ELX] = 0.5.0.05 二 0.3.0.1+0.2.0.3 = 0.115( 秒 )， 


例 2. 17( 几 何 随机 变量 的 均值 和 方差 ) ”你 一 次 又 一 次 地 写 一 个 计算 机 软件 ， 每 写 一 
次 都 有 一 个 成 功 的 概率 p. 假定 每 次 成 功 与 否 与 以 前 的 历史 记录 相互 独立 . 令 不 是 你 一 
直到 成 功 为 止 所 写 的 次 数 ( 最 后 一 次 你 成 功 了 ) .了 的 期 望 和 方差 是 多 少 ? 
由 于 了 是 一 个 儿 何 随机 变量 ， 其 分 布 列 为 

px(lk) = (1— p)*-1p. k=1,2.-.…. 


了 的 均值 和 方差 的 公式 是 
一 All —p)* 1p, varlX) (Fk— ELX])” 2(1 —p)* -1py. 
大 一 1 k=1 


计算 上 面 的 无 穷 级 数 有 一 些 麻烦 . 为 了 使 计算 简单 化 , 我 们 利用 全 期 望 定理 . 记 

1 二 {X=1} ={ 第 一 次 就 写成 功 }, ! [A_2={X%3el}=] 

(http://latex. codecogs. com/gif. latex?A 2={X%3el}={ 第 一 次 没有 成 功 }. 如 果 第 一 
次 就 写成 功 (X = 1)， 这 样 








BEIX|X=1=1. 
如 果 第 一 次 失败 (XX > DD))， 我 们 浪费 了 一 次 努力 ， 必 须 重新 开始 . 这 样 


EI[X|IX > 1] =1+ELX]. 





因此 ， 由 全 期 望 定理 


E[X] = P(X = 1)E[X|X =1]+P(X > 1)EIX|IX > ]] 
=p+ (1—p)(1+ EIX)). 


由 此 可 得 


相似 地 ， 我 们 有 
EXIX=1=1, EXX>1]= E+X)]=1+2PX]+ EX 
故 
E[X1] =p:1+(1—p)(1+2E[X] + EIXY), 
从 而 


1 + 2(1— p)E[X] 
p | 


E[X3 = 


再 利用 EIX] = 1/p， 得 到 


最 后 我 们 得 到 
;i i 
PP pp PP Pp 








var(X) 一 了 LIX3 — (E[X])? = 


ee ee Se 它 涉及 有 关 条 
件 期 望 的 数学 要 点 


主持 人 给 你 两 个 信封 ， 并 且 告 诉 你 两 个 信封 里 有 现金 , 其 中 一 个 信封 里 的 钱 是 另 一 个 信 
书 倍 (nm > 1 ， 且 是 一 个 整数 ). 当 你 打开 其 中 一 个 信封 ， 看 到 信封 里 面 的 钱 数 以 

你 可 以 收 下 这 个 信封 里 面 的 钱 作为 你 的 奖金 ， 也 可 以 要 另 一 个 信封 里 的 钱 作 奖 金 
有 外 么 好 的 略 可 使 你 拿 到 较 多 的 奖金 ? 


下 面 有 一 个 推理 ， 其 结论 是 有 利于 换 信封 的 . 令 4 是 你 打开 的 信封 , 2 是 你 可 能 换 的 
信封 . 信和 分别 信封 4 和 中 的 匀 数 . 论 证 如 下 J 站 或 y=" 网 
种 情况 发 生 的 概率 分 别 为 /2， 因 此 , 给 定 x , 则 y 的 期 望 值 为 


2 
> 泛 1 1/1 1 十 ?ma” 
一 "一 十 一 .7n0T 一 一 | 一 十 mrz 一 > 了 
2 m 2 2 \m 2m 


因为 当 m > 1 时 1+m? > 2m. 这 样 ， 你 应 该 总 是 转向 信封 8 . 当 你 转向 8 的 时 候 ， 
由 于 同样 的 理由 ， 又 得 转 回 到 4 .这样 陷 入 了 矛盾 之 中 . 


在 这 个 悖 论 中 ， 有 两 个 假设 是 有 瑕 意 的 . 


(a) 对 于 两 个 信封 内 的 钱 你 无 法 先知 先觉 ， 当 给 定 x 的 全 以 后 ， 你 只 知道 y 的 值 等 于 
x 的 wm 倍 或 lim 倍 ， 当 然 , 你 没有 理由 假定 哪 种 情况 更 有 可 能 


(b) 用 随机 变量 了 和 了 表示 两 个 信封 内 的 钱 数 . 若 

EIY|X = 了 zj>z 
对 一 切 成立， 那么 “总 是 转向 J 能够 得 到 更 多 的 期 望 奖 金 . 
现在 仔细 分 析 这 两 种 假设 . 


假设 (a) 是 有 瑕 竟 的 ， 因 为 它 没有 说 明 相 应 的 模型 ,事实 上 , 一 个 确定 的 模型 ， 各 种 事 
件 ， 包 括 了 和 了 的 可 能 取 值 , 都 应 该 有 确定 的 概率 . 有 了 六 ,》 的 概率 知识 ,了 的 值 
一 定 会 提供 了 取 值 的 某 些 知识 . 例如 菜 人 选择 2 元 放 在 一 个 信封 内 , 2 的 取 值 范围 为 
| 而 在 另 一 个 信封 内 放 入 z 的 w 倍 的 钱 数 ， 然 
你 以 等 概率 从 两 个 信封 中 随机 地 抽取 一 个 信封 ， 看 里 边 的 钱 数 了 的 值 . 当 了 的 
信 比 = 大 的 时 候 * 你 可 以 肯定 你 拿 到 的 信封 里 的 钱 数 是 比较 多 的 ， 因 此 你 不 必 换 信封 . 
知 你 拿 到 的 钱 数 等 于 z 的 值 , 那 你 可 以 肯定 男 一 个 信封 中 的 钱 数 比 z 多 , 因此 你 必须 
换 信封 。 大致 上 可 以 这 么 说 , 如 宁 你 知 能 够 知道 了 的 值 域 或 取 值 的 可 能 性 ， 你 就 可 以 
知道 了 的 值 比较 小 ， 还 是 比较 大 ， 这 样 就 可 以 决定 是 否 应 该 换 信封 了 . 












































从 数学 上 说 ， 一 个 概率 模型 中 , 我 们 一 定 能 够 找到 和 了 (信封 4 和 2 中 的 钱 数 ) 的 
联合 分 布 率 .了 和 了 的 联合 分 布 率 可 由 两 个 信封 中 的 钱 数 的 最 小 者 2 的 分 布 率 所 确 
定 . 设 Z 的 分 布 率 为 pz， 则 对 一 切 z ， 


， 1 
pxYylmz,2) = pxy(lz,mz) = 5P2(2), 





对 于 不 具有 (mz,z) 或 (2,mz) 的 形式 的 (z, 幼 
pxy(z,y) = 0. 

当 Pxr(z, 切 给 定 以 后 ,我 们 可 以 用 以 下 换 信封 的 规则 

换 信封 的 充 要 条 件 为 PIY|X = 可 > 
按照 这 个 规则 ， 可 以 确定 换 或 者 不 换 信封 
现在 的 问题 是 ;按照 上 述 的 模型 和 转换 规则 是 否 可 以 按照 某 些 x 的 值 , 转换 信封 ， 而 
另 一 些 x 的 值 不 能 转换 ? 一 般 情况 下 是 可 以 的 , 例如 早先 举 出 的 2 的 值 域 为 有 界 集合 
的 情况 ,就 可 以 实现 这 样 的 转换 规则 ， 然 而 ， 下面 的 一 个 硝 旺 怪 们 的 例 了 了 , 使得 你 总 是 
抛掷 一 枚 均匀 的 硬币 ， 直 到 出 现 正面 为 止 ， 记 六 为 抛 振 硬 币 的 次 数 . 此 时 你 将 mx 元 
放 进 一 个 信封 内 ， 将 m*-! 元 放 进 另 一 个 信封 内 . 令 了 是 你 打开 的 那个 信封 (信封 从 内 
的 钱 数 ,7 是 另 一 个 信封 (信封 8 ) 内 的 钱 数 


现在 假定 4 中 只 有 1 元 钱 ， 显 然 8 中 含有 w 元 ， 你 应 该 换 信封 . 当 4 内 含有 ma 元 
的 时 候 ，B 中 或 者 含有 m"! 元 钱 或 m”™ 元 钱 ， 由 于 W 具有 几何 分 布 列 ,我们 有 
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P(Y = m™t!1|X =m") P(Y =m™t!l,X =m") _ P(N=n+1) 1 
EL 三 m™1|X =m") PY=m™lX=m") P(N=n) 2 
这 样 我 们 有 


2 1 
P(Y =m™ X=m")=-, PlY =m"™X =m")= 3， 





Bi 信封 B 中 的 钱 数 |X 一 mn] = 3 十 5 一 nn 





(2+7m2/(3m) > 1 的 充 要 条 件 是 m2 -3m+2>0 或 -Hom -2)>0 若 m>2, 则 
BI 信 封 B 中 的 钱 数 |X = m"] > m”. 


ee 为 了 获得 最 大 的 期 望 奖金 ， 你 应 该 转向 信封 8 ， 在 这 个 例子 中 , 由 于 对 一 切 x 


EIY|X = z] > z， 


你 选择 8 ， 直观 地 看 ， 利 用 全 期 望 定理 ， 应 该 有 结论 ELY] > ELX] 然而 ， 由 于 了 和 





六 具有 相同 的 分 布 列 , 结论 ElY] > E[X] 不 可 能 成 立 ， 实 际 上 ， 我 们 有 
E[Y] = E[X] = o%, 
这 个 结论 与 对 一 切 x 有 ElY|IX = |> 7 并 不 矛盾 . 当 ElY] = EIX] = % 的 情况 下 , 利 





用 关系 式 ElY IX =| > 7 而 转换 信封 并 不 能 够 改进 平均 奖金 . 从 而 解决 了 悖 论 问题 . 


2.7 独立 性 


现在 讨论 汪 随 机 变量 相关 内 独 关 性 的 概念 ， 这 些 概念 与 事件 之 间 的 相互 独立 性 的 概念 
相 和 的 ( 见 第 1 章 ). 只 需 引 进 由 随机 变量 导出 的 相关 的 事件 ， ee 
并 性 . 


2.7.1 随机 变量 与 事件 的 相互 独立 性 


随机 变量 与 事件 的 独立 性 的 概念 与 两 个 事件 的 相互 独立 性 的 概念 | 其 基本 思想 
是 如 画 条 件 的 事件 的 发 生 与 否 不 会 对 随机 变量 取 值 提供 新 的 信息 . 更 具体 地 说 ， 随 机 变 
量 了 独立 于 事件 4 是 指 


P(X=z HB A)=P(X=7z)P(X =7)P(A) = px(z)P(A) 对 一 切 x 成 立 . 


这 个 条 件 等 价 于 : 对 任何 随机 事件 {X= 7 与 事件 4 相互 独立 . 由 条 件 分 布 列 的 定 




















画 








P(X=zrzH A) = px al7T)P(A), 





所 以 ， 只 要 P(0 > 0, 随机 变量 了 与 事件 4 的 独立 性 与 下 面 的 条 件 是 等 价 的 ， 
PX|AlT) 一 PXT 对 一 切 x 成 立 . 


例 2. 19 考虑 独立 地 抛掷 一 枚 均匀 的 硬币 ， 共 抛掷 两 次 . 令 了 是 正面 向 上 的 次 数 ,4 
是 正面 出 现 的 次 数 为 偶数 .了 的 (无 条 件 ) 分 布 列 为 


1/4， 若 w= 0 
pr) 二 本 112， 证 守 = 1; 
1/4， 若 z=2, 
而 P(4) = 1/2. 由 条 件 分 布 列 的 定义 知 PXI4(7?) =P(X =z 且 4/P(4): 
1/2， 考 zx = 0， 


2DXI4(Z) = 0U， 符 闻 三 1 
1 这 迟 一 久 


显然 ， 由 于 Px 和 PxIa4 不 相同 ，X 和 事件 4 是 不 独立 的 . 若 随 机 变量 是 这 样 定义 
的 : 第 一 次 抛掷 得 正面 同上 ， 则 取 值 为 0, 在 第 一 次 抛掷 得 反面 同上 ， 则 取 值 为 1， 显 然 
人 与 事件 4 是 相互 独立 的 . 当然 也 可 从 独立 性 的 定义 
直接 验证 . 


2.7.2 随机 变量 之 间 的 相互 独立 性 


随机 变量 之 间 的 相互 独立 性 与 随机 变量 和 随机 事件 的 相互 独立 性 的 概念 是 完全 相同 的 . 
随机 变量 了 和 了 称 为 相互 独立 的 随机 变量 ， 若 它们 满足 


PxYlT,Y) 三 PxlTIPYIYW 对 一 切 x 和 y 成 立 . 














这 等 价 于 对 于 任意 x 和 随机 事件 X = z 和 Y =y 相互 独立 ， 最 后 , 由 公式 
pxr(z, 切 = PxlyY(zly)py(y) 可 知 随机 变量 和 7 的 相互 独立 性 的 条 件 等 价 于 





pxlY(Zy) = Px(7?) 对 一 切 x 和 一 切 满足 PY(Y) >0 的 成立. 
直观 上 ， 了 和 了 的 独立 性 意味 着 了 的 取 值 不 会 提供 了 取 值 的 信息 . 
在 给 定 事件 4 的 条 件 下 (P(4) 必须 大 于 0! ) 也 可 以 定义 两 个 随机 变量 的 条 件 独立 性 . 
在 给 定 事件 4 的 条 件 下 , 所 有 的 事件 的 概率 都 换 成 关于 条 件 4 的 条 件 概率 ， 例如， 我 
们 称 随机 变量 了 和 了 在 给 定 正 概率 事件 4 的 条 件 下 是 条 件 独立 的 , 如 果 它 们 满足 

P(X =z,Y =y|A)=P(X =z|A)P(Y =yA) 对 一 切 x 和 yy 成 立 ， 
或 者 利用 本 章 的 记号 

PxY1A(zT,y) = PxIa(T)pyIa( 胃 对 一 切 x 和 y 成立 . 

这 个 结论 与 下 式 是 等 价 的 : 

PXIY4tzI = PxIa(7) 对 一 切 x 和 一 切 满足 PY(y) >0 的 y 成 立 . 


在 1.5 节 中 曾经 提 到 事件 的 条 件 独 立 性 并 不 包含 独立 性 ， 反 之 亦 然 . 在 随机 变量 的 场合 
下 情况 也 是 如 此 ， 图 2. 15 中 的 例子 说 明 了 这 种 情况 . 























图 2. 15 表 中 数据 说 明 条 件 独 立 与 独立 并 不 等 价 ， 表 中 的 分 布 列 说 明 了 和 了 是 相 
互 不 独立 的 ， 例 如 


pxy(l|ll) = P(X =1|Y =1)=0#P(X =1)=px!(1). 


另 一 方面 ， 若 将 事件 4={X 2,Y > 3 引 (图 中 阴影 部 分 的 试验 结果 之 集合 ) 作为 条 
件 事件 ， 则 随机 变量 XY 和 了 是 条 件 独 立 的 .我们 有 








DxIyr4(Z|2) 一 


对 于 y=3 和 y= 二 4 都 成 立 
设 随 机 变量 了 和 了 相互 独立 ， 则 
E[XY] = ELX]E[Y, 


这 个 事实 可 从 下 面 的 一 系列 等 式 得 到 : 


bs De rupley) 
s -DD (z)py (vy) (根据 独立 性 ) 


= -2 ZDX (2) 2 ypy (Y) 


= EIX]EIY]. 
3 若 不 和 二 相互 独立 , 则 对 任意 函数 g 和 有 下 式 
Y: 


Elg(X)h(Y)] = Elg(X)ELA(Y)]. 


事实 上 ， 当 我 们 理解 到 这 样 的 事实 的 时 候 , 上 述 结论 就 是 明显 的 了 : 由 了 和 了 的 相互 
独立 性 可 以 蕴涵 glX) 和 hlY) 的 相互 独立 性 . 形式 的 验证 ， 留 作 本 章 末尾 的 习题 . 


现在 考虑 两 个 独立 随机 变量 了 和 了 的 和 如 上 我 们 希望 求 出 妖 7 的 方差 .随机 变量 的 
方差 具有 如 下 的 特性 : 0 其 方差 保持 不 变 ， 利 用 这 个 特点 ， 
我 们 考虑 将 随机 变量 进行 平移 , 使 得 期 望 归 0. 入 = 和 一 EX],Y= 工 一 EIY] ,这 样 





var(X+Y)=valX+Y) 
= E[(X +Y)" 
= E[X?+2XY +Y3 
= EI[X’| +2E[XY] + E[Y’| 
= E[X’] + E[Y?] 
= var(X) + var(Y) 


= var(X) + varlY). 


在 上 述 一 系列 的 等 式 的 证 明 中 ， 我 们 利用 了 EIX 站 =0. 这 是 利用 了 独立 随机 变量 的 性 
质 的 结果 (由 于 和 和 了 分 别 是 独立 随机 变量 和 了 的 函数 ,所 以 它们 也 相互 独立 )， 
妈 


E[XY] = E[X]E[Y] = 





总 之 ， 独 立 随机 变量 的 和 的 方差 等 于 它们 的 方差 之 和 . 与 之 对 比 ， 随 机 变量 之 和 的 期 户 
总 是 等 于 随机 变量 期 望 的 和 , 而 不 需要 任何 条 件 . 


关于 独立 随机 变量 的 性 质 的 小 结 


设 在 某 一 试验 中 ，4 是 一 个 事件 ， 满 足 条 件 P(A4) > 0, 又 设 了 和 了 是 在 同一 个 试 
验 中 的 两 个 随机 变量 . 





。 称 了 为 相对 于 事件 4 独立 ， 如 果 满 足 
PxIz) = Px(Z) 对 一 切 x 成 立 ， 
即 对 一 切 % 事件 { =z} 与 4 相互 独立 . 


称 了 和 了 为 相互 独立 的 随机 变量 ， 如 果 对 一 切 可 能 的 数 对 (7,y)， 事 件 
{X=7} 和 {Y= 让 相互 独立 ， 或 等 价 地 


PXY(T,Y) 三 PxX(T)PY(Y) 对 一 切 x 和 y 成立. 


若 了 和 了 相互 独立 ， 则 

E[XY] = E[X]E[Y] 

进一步 地 ， 对 于 任意 函数 g 和 hh， 随 机 变量 9(\X) 和 hlY) 也 是 相互 独立 
的 ， 并 且 

Elg(X)h(Y)] = Elg(X)EIA(Y)]. 

若 了 和 了 相互 独立 ， 则 


var( 针 二 YY) = var(X)+ var(Y). 


2.7.3 几 个 随机 变量 的 相互 独立 性 


前 面 的 关于 随机 变量 相互 独立 的 讨论 可 以 很 自然 地 推广 到 两 个 以 上 随机 变量 相互 独立 
的 情况 . 例如 ， 我 们 称 随机 变量 不 了 和 2 是 三 个 相互 独立 的 随机 变量 , 如 果 它 们 满足 


PxX,Y,2(T,Y, 2) = PxlTIpy (ypzl2) 对 一 切 总 所 2 成 立 . 


设 不 KZ 是 三 个 相互 独立 的 随机 变量 , 则 任何 形 如 玫 X)、glY)、R(Z) 的 三 个 随机 变 
量 也 是 相互 独立 的 .相似 地 , 任何 两 个 随机 变量 gz 和 hl2Z) 也 是 相互 独立 的 .但 
是 形 如 9g(X, 了 了 和 hlY,2) 的 两 个 随机 变量 通常 不 是 相互 独立 的 , 因为 它们 都 受 公共 的 
随机 变量 了 的 影响 . 若 用 互 不 干扰 的 试验 结果 来 解释 独立 性 , 则 上 述 这 些 性 质 在 直观 上 
是 非常 清楚 的 .但 是 形式 的 证 明 有 些 烦琐 . 幸运 的 是 ， 直 观 和 数学 理论 通常 是 一 致 的 . 
这 主要 是 , 独立 性 的 定义 本 身 反 映 了 对 直观 的 解释 . 


2.7.4 若干 个 相互 独立 的 随机 变量 的 和 的 方差 


相互 独立 的 随机 变量 的 和 出 现在 许多 重要 的 场合 ， 例 如 在 测量 问题 中 , 为 了 减少 测量 误 
差 ， 通常 是 把 若干 个 独立 的 测量 值 的 平均 值 作为 目标 物 的 测量 值 . 在 处 理 若 干 个 相互 
独立 的 随机 源 的 累计 效果 时 ， 也 会 遇 到 随机 变量 和 的 方差 问题 . 此 处 我 们 仅 提 供 几 个 
例子 , 后 面 的 几 章 将 会 回 到 这 个 主题 . 


人 设 和 1,… ,An 为 相互 独立 的 随机 变量 
子 列 , 见 







































































Var XI 十 … 十 An 一 Var XI 十 十 Var AXn). 


这 个 结论 可 以 通过 反复 应 用 两 个 独立 随机 变量 之 和 的 方差 公式 
var(X+Y)= varlX)+varlY) 而 证 得 . 


例 2. 20( 二 项 分 布 和 泊 松 分 布 的 方差 ) ”考虑 独立 地 抛掷 一 枚 硬币 , 共 抛掷 2 次 ， 











次 正面 向 上 的 概率 为 p， 对 每 个 了 工 令 Xi 表示 刻画 第 7 次 抛 括 硬 币 的 伯 努 利 随机 变 
- 即 当 第 7 次 抛掷 后 正面 网 上， 已 a 否则 Xi=0. 这 样 六 = ee KX2 + + Xn 
二 项 随机 变量 . 由 于 各 次 抛掷 硬币 是 相互 独立 的 , 随机 变量 X1,… ,Xn 是 相互 独立 








的 故 可 利用 独立 随机 变量 和 的 方差 公式 
var(X)= St = npll1— p). 
这 1 
2.2 节 已 经 指出 , 参数 为 和 的 泊 松 随机 变量 可 以 看 作 二 项 随机 变量 的 极限 (二 项 随机 变 
量 的 参数 和 满足 了 一 co，P 一 0， 并 且 保 持 P= 为 .这样 ， 对 应 地 求 二 项 分 布 
的 期 望 和 方差 的 极限 ， 可 形式 地 得 到 泊 松 分 布 的 期 望 和 方差 ELY] = varlY》) = 入 .我 们 








己 经 在 例 2. 7 中 证 明了 公式 EIY] = 入 现 证 公式 var(Y) = 入 
2 -人 
E[Y3 -Dr 
es e 一 入 一 1 
四 Sn (大 一 1)! 
e 一 和 Nm 
A ed 
m=0 
= A(E[Y] +1) 
二 入 ( 入 十 1)， 
由 此 得 到 


var(Y) = E[Y?] — (E[Y])? = MA+1)— X=A. 


独立 同 分 布 的 随机 变量 的 加 权 和 的 均值 和 方差 的 公式 是 样本 均值 作为 随机 变量 的 期 望 
的 估计 的 统计 过 程 的 理论 基础 . 下 面 是 一 个 典型 的 例子 . 


例 2. 21( 样 本 均值 的 期 望 和 方差 ) ”我 们 希望 估计 总 统 的 支持 率 ， 为 此 ， 我 们 随机 地 
选取 个 选民 , 询问 他 们 的 看 法 . 令 Xi 表示 第 7 个 被 问 的 选民 的 态度 


1， 若 第 i 个 被 问 的 选民 支持 总 统 ， 
0， 若 第 i 个 被 问 的 选民 不 支持 总 统 . 


我 们 假定 六 1… ,六 n 为 独立 同 分 布 的 伯 努 利 随 机 变量 , 其 均值 为 p， 方差 为 Pll 一 P). 
此 处 我 们 将 bp 认为 选民 支持 总 统 的 概率 , 并 且 将 调查 得 到 的 平均 反应 5n 称 为 样本 均 











Xl MW Xn 
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由 于 Sn 是 Al :sn 的 线性 函数 ， 我 们 有 
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i=1] i=1 


再 利用 随机 变量 XI,…… ,Xn 的 独立 性 ， 得 到 


i 一 1 


Sn 被 认为 是 支持 率 p 的 一 个 很 好 的 佑 计 ， 这 是 因为 它 的 期 望 刚好 是 pb 而 反映 估计 精 
度 的 方差 当 n 增 大 的 时 候 变 得 越 来 越 小 . 


注意 ， 上 例 中 即使 Xi 不 是 伯 努 利 随 机 变量 ， 结 论 


varl 5n) = i 

仍然 成 立 ， 只 要 Xi 之 间 相 互 独立 ， 期 望 和 方差 与 7 无 关 . 这 样 样 本 均值 仍然 是 随机 
变量 的 公共 期 望 的 一 个 好 的 估计 , 当 样 本 量 2 增 大 的 时 候 ，5n 的 方差 变 得 越 来 越 小 . 
在 第 5 章 讨论 大 数 律 的 时 候 ， 我 们 将 详细 讨论 样本 均值 的 这 个 特性 . 


例 2. 22( 用 模拟 方法 估计 概率 ) ”在 许多 实际 问题 中 , 有 时 候 计 算 一 个 事件 的 概率 是 十 
分 困难 的 . 然而 我 们 可 以 用 物理 方法 或 计算 机 方法 重复 地 进行 试验 , 这 些 试验 结果 可 以 
显示 某 事件 是 否 发 生 ， 利 用 这 种 模拟 方法 可 以 以 很 高 的 精度 计算 某 事件 的 概率 ， 我 们 
可 以 独立 地 模拟 试验 a 次 , 并 且 记录 7 次 试验 中 事件 4 发 生 的 次 数 四 用 m/n 去 近 
似 概率 P(L)， 例 如 在 抛掷 硬币 试验 中 , 为 计算 概率 了 = P( 出 现 正面 )， 我 们 独立 地 抛 
掷 2 次 , 用 比值 (记录 中 出 现 正面 的 次 数 /用 去 逼近 概率 台 


为 计算 这 种 方法 的 精确 度 , 考虑 个 独立 同 分 布 的 伯 努 利 随机 变量 X1,… ,xn 其 公共 
分 布 列 为 


























P(A), 六 局 = 了 


. 立 = 
a 1 一 下 CS 省 .6E 包 





此 处 Ai 相当 于 第 7 次 试验 中 事件 4 的 示 性 变量 , 即 当 事 件 4 发 生 的 时 候 ，Ai 的 取 
值 为 1， 事 件 4 不 发 生 的 时 候 , 的 取 值 为 0， 而 随机 变量 
汉人 


了 2 


六 = 


的 取 值 就 是 概率 P(4) 的 估计 值 . 由 例 2. 21 的 结果 知 ,不 的 期 望 为 PL4)， 方 差 为 
FL 一 ECUNM2 故 了 很 大 时 ,三 提供 了 P(4) 的 精确 的 估计 . 


2.8 小结 和 讨论 


在 概率 模型 中 ， 试 验 结果 是 一 些 数值 的 时 候 , 随机 变量 是 一 个 很 自然 的 工具 .本 章 集中 
讨论 离散 随机 变量 . 为 离散 随机 变量 建立 了 理论 架构 和 引进 了 相应 的 工具 . 
特别 地 ， 我 们 引入 了 一 些 基 本 概念 ， 例 如 分 布 列 、 均 值 和 方差 . 这 些 概念 在 不 同 程度 上 
刻画 了 离散 随机 变量 的 概率 特征 ， 同 时 ， 我 们 指出 , 为 了 计算 = gl 六 ) 的 期 望 和 方 
差 ， 可 以 不 用 了 的 分 布 列 ， 而 只 需 利 用 了 的 分 布 列 即 可 .特别 地 ， 当 g 是 一 个 线性 
函数 YY = aX +b 的 时 候 , 了 和 了 的 期 望 和 方差 具有 下 列 关系 

ElY|] = aE[X|+b, varlY)= a2varfX). 


我 们 也 讨论 了 若干 具体 的 离散 随机 变量 ， 并 且 导 出 了 分 布 列 、 均 值 和 方差 , 其 结果 如 
下 

















[一 局 














某 些 具体 的 离散 随机 变量 的 小 结 
[a, b] 上 的 离散 均匀 分 布 (a, 2 为 整数 ) 


1 上 
和 石上 = 二 a,a 二 1,...,b, 
0， 其 他 ， 
_ a+b ee (8— a}{8— & + 2) 
E[X| S| var(X) = 1 


参数 为 p 的 伯 努 利 随 机 变量 (刻画 一 次 试验 成 功 或 失败 的 概率 模型 ) 





Pp， ”者 及 =1， 
px(k) = 可 
de 也， 石 k= 0, 
E[X|]=p, varl(X)=p(l1—p). 


参数 为 p 入 的 二 项 随机 变量 (刻画 w 次 独立 重复 的 伯 努 利 试验 中 成 功 次 数 的 
随机 变量 ) 





px (lk) = (ro 一 P)m 天 一 0.1... ,7、 


EI[X|=np, varlX)= np(ll—p). 











参数 为 的 几何 随机 变量 (在 独立 同 分 布 的 伯 努 利 试验 序列 中 刻画 直到 第 一 次 成 
功 所 需 的 试验 次 数 的 随机 变量 ) 





px lk) | 一 p)*-!1p, Ee 
1 T= 

EI[X|]=-, var(X)= A 

Pp 有 


参数 为 和 的 泊 松 随机 变量 ( 当 很 大 ,pb 很 小 ， 和 ^ =mP 时 ， 用 于 荧 近 二 项 分 布 的 
随机 变量 ) 





= A 


px(k)=e 7 k=0,1,2,.…, 


万 
E[X|=A, varllX)=A. 
我 们 也 讨论 了 多 元 随机 变量 和 它 的 联合 分 布 列 和 条 件 分 布 列 , 以 及 与 之 相关 的 条 件 期 
望 . 条 件 分 布 列 通 常 还 是 定义 一 个 概率 模型 的 起 始点 , 它 可 以 用 于 计算 其 他 的 概率 值 ， 
例如 边缘 分 布 列 或 联合 分 布 列 或 相应 的 期 望 值 ， 特别 地 ， 当 条 件 分 布 列 PXIY(zIy) 给 
定 以 后 , 有 以 下 几 种 情形 . 


(a) 六 ,Y 的 联合 分 布 列 可 由 下 式 计 算 : 








pxY(z,y) = py ly)pxy (rly). 


这 个 结果 可 以 推广 到 多 于 两 个 变量 的 情况 ， 例 如 : 





PXYZ(T, UN 2) = pz(z)pyz(y|z)px Yr.z(TIy, 2). 
这 个 公式 与 第 1 章 中 利用 序 贯 树 形 图 计算 概率 的 方法 类 似 . 
(b) 了 的 边缘 分 布 列 可 用 下 式 计 算 : 





Px(z) = >》 Pr(y)px YlT,Y). 
y 


这 个 公式 与 第 1 章 中 的 全 概率 公式 类 似 . 
(c) (bp) 中 的 全 概率 公式 可 以 推广 成 为 全 期 望 公式 , 以 计算 随机 变量 了 的 期 望 : 


E[X] = >》 py (WEIX|Y =. 
y 











类 似 于 事件 的 相互 独立 性 ， 我 们 也 引进 了 独立 随机 变量 的 概念 ， 特别 地 , 我 们 引进 了 独 
立 随机 变量 的 和 : 


于 二 十 … 十 Xn. 
我 们 证 明了 


EI[X] = EI[Xi| + +ElXn], var(X)= var(X1)+:…:+ var(Xn). 


上 述 公 式 中 ， 关 于 随机 变量 和 的 期 望 的 公式 , 并 不 要 求 随机 变量 之 间 的 独立 性 , 但 是 关 
于 随机 变量 的 和 的 方差 的 公式 却 要 求 随机 变量 之 间 的 独立 性 . 

在 第 3 章 中 ， 我 们 将 本 章 中 的 概念 和 方法 推广 到 一 般 的 随机 变量 的 情况 . 随机 变量 的 概 
念 是 概率 论 中 最 基本 的 概念 . 











习题 
2.2 节 分 布 列 


1. MIT 足 球 队 在 周末 计划 有 两 场 比赛 . 第 一 场 比赛 不 败 的 概率 为 0. 4， 第 二 场 比赛 不 败 
的 概率 为 0. 7, 两 场 比赛 的 输赢 是 相互 独立 的 ， 如 果 在 一 场 比赛 中 不 败 , 那么 他 们 在 比赛 
中 赢 球 或 平局 的 概率 是 相等 的 , 并 且 与 另 一 场 比赛 的 结果 是 相互 独立 的 .MIT 足 球 队 在 

比赛 中 的 得 分 情况 是 这 样 的 ， 赢 球 得 2 分 , 平局 得 1 分 ， 输 球 得 0 分 ， 写 出 这 个 周末 
MIT 足 球 队 得 到 的 总 分 的 分 布 列 . 


2. 你 参加 了 一 个 有 500 人 的 晚会 ,有 人 与 你 生日 相同 的 概率 有 多 大 ? 分 别 利用 精确 解 和 
泊 松 分 布 逼近 的 方法 计算 这 个 概率 (为 了 计算 简单 ， 排 除 2 月 29 日 这 种 特殊 的 情况 ). 


3， 费 硕 尔 和 斯 由 斯 基 两 人 下 国际 象棋 , 按 规 定 第 一 个 赢得 一 盘 者 为 比赛 的 胜 者 ， 知 两 
人 连续 10 盘 和 局 , 则 宣称 两 人 言 和 ， 在 每 盘 棋 中 费 希 尔 启 棋 的 概率 为 0. 4， 输 棋 的 概率 
为 0. 3, 和 棋 的 概率 为 0. 3， 每 盘 棋 之 间 的 输赢 是 相互 独立 的 . 


(a) 费 希 尔 赢 得 比赛 的 概率 有 多 大 ? 
(b) 两 人 下 棋 的 盘 数 的 分 布 列 是 什么 ? 


4. 一 个 因特网 服务 商 备 有 50 个 调制 解 调 器 以 供 1000 个 用 户 使 用 . 佑 计 每 一 给 定时 刻 ， 
每 个 用 户 使 用 因特网 的 概率 为 0. 01, 而 且 使 用 者 之 间 相 互 独立 . 


(a) 在 给 定 的 时 刻 , 使 用 着 的 调制 解 调 器 数 的 分 布 列 是 什么 ? 
(b) 重复 \a) 题 , 利用 泊 松 分 布 列 逼近 使 用 网 络 连接 的 用 户 数 的 分 布 列 . 


(c) 计算 在 某 一 时 刻 使 用 人 数 超过 调制 解 调 数 的 概率 . (利用 精确 分 布 列 和 (b) 中 提供 的 
泊 松 远近 分 布 列 分 别 进行 计算 . ) 


5， 在 互连网 中 一 个 信息 包 通 信 系统 的 组 成 是 ， 一 个 临时 储存 信息 包 的 缓冲 器 , 这 个 组 

冲 器 用 于 储存 信息 源 送 来 的 信息 包 ; 一 条 通信 线路 , 从 缓冲 器 获取 信息 包 ， 将 它们 传送 
给 接收 者 . 系统 将 工作 时 间 划 分 为 两 个 时 段 ， 在 第 一 时 段 , 系统 将 信息 源 送 来 的 信息 包 

放 在 缓冲 器 内 . 信息 源 送 来 的 信息 包 的 个 数 是 随机 的 ， 其 分 布 列 为 泊 松 分 布 列 , 分 布 的 

参数 为 、 绥 冲 器 能 够 储存 的 信息 包 最 大 个 数 为 b, 车 信息 包 送 来 时 ， 绥 冲 器 已 经 存 满 
的 时 候 ， 那 些 信息 包 将 被 丢弃 . 在 第 二 时 段 ， 将 缓冲 器 中 的 信息 包 传 送出 去 , 传送 出 c 
个 信息 包 (0 <c < 5b，c 是 一 个 给 定 的 常数 . 当 缓 冲 器 中 的 信息 包 的 个 数 小 于 c 的 时 候 ， 
就 将 缓冲 器 中 的 信息 包 全 部 传送 出 去 ). 


(a) 假定 在 第 一 时 段 开 始 时 ， 绥 冲 器 中 的 信息 包 的 个 数 为 0， 分 别 写 出 第 一 时 段 结束 时 
和 第 二 时 段 结束 时 缓冲 器 中 的 信息 包 的 个 数 的 分 布 列 . 


(b) 求 在 第 一 时 段 有 信息 包 被 缓冲 器 丢弃 的 概率 . 







































































































































































6. 凯 尔 特 人 队 和 湖人 队 在 季 后 赛 中 相遇 ， 双 方 要 打 场 比赛 , 其 中 为 奇数 ， 凯 尔 
特 人 队 赢 一 场 球 的 概率 为 p, 而 各 次 赢 球 是 相互 独立 的 . 


(a) 求 忆 的 范围 ， 使 得 对 于 凯 尔 特 人 队 来 说 ，zF5 比 天 3 合算 . 


(b) 将 (a) 进行 推广 ， 即 对 于 任何 K 的 值 , 找 出 pb 的 范围 使 得 天 2Url 比 天 2 人 1 对 
岂 尔 特 人 队 更 合算 . 

7， 你 刚 租 了 一 所 大 房子 ， 房 产 经纪 人 给 你 5 把 钥匙 , 可 以 打开 5 扇 门 ，5 把 钥匙 外 形 完 

一 样 . 为 了 打开 大 门 , 你 只 能 一 把 一 把 地 试 . 

(a) 找 出 你 打开 大 门 所 需 的 试验 钥匙 次 数 的 分 布 列 .在 下 面 不 同 假设 之 下 分 别 算出 分 
布 列 : (1) 当 你 试 开 失败 以 后 ， 在 钥匙 上 做 一 个 记号 ， 这 样 下 次 试 开 的 时 候 不 会 重 试 这 
把 钥匙 。 (2) 每 次 试 开 失 败 以 后 ， 从 5 把 钥匙 中 随机 地 选 一 把 再 试 . 

(bp) 重复 (a) 的 情形 ， 这 次 经 纪 人 给 你 10 把 钥匙 , 其 中 每 一 扇 门 有 两 把 完全 相同 的 钥匙 . 


8.， 二 项 分 布 列 的 递 推 计算 公 式 ， 设 了 是 一 个 二 项 随机 变量 , 相应 的 参数 为 xn 和 书 
证 明 其 分 布 列 可 以 从 Px(0) 二 (i 一 pj" 开始 , 利用 下 面 的 递 推 公式 计算 ; 

p nk 
1 一 大 二 1 





















































px(k+ 1)= -px(k), k=0,1,..……,n—1. 


9. 二 项 分 布 列 的 形式 ， 设 了 是 一 个 二 项 随机 变量 , 相应 的 参数 为 n 和 p. 令 jr 是 
小 于 或 等 于 (n+ Dp 的 最 大 整数 . 证 明 分 布 列 px( 在 上 ,大 ] 的 范围 内 相对 于 A 是 非 
降 的 , 而 在 三 的 范围 内 单调 递 降 . 


10， 泊 松 分 布 列 的 形式 ， 设 了 是 一 个 泊 松 随机 变量 , 相应 的 参数 为 入 证 明 分 布 列 
Px(k) 当 k 在 区 间 [0 的 整数 点 上 变化 时 是 单调 上 升 的 , 而 在 (和, ce) 中 的 整数 点 上 
变化 时 是 单调 下 降 的 . 


11.*# 火柴 问题 - 巴 拿 赫 的 吸烟 习惯 引出 的 问题 .一 位 爱 吸烟 的 数学 家 的 左右 口袋 各 
放 一 盒 火 柴 . 每 次 吸烟 时 ， 他 随机 地 从 左右 口袋 掏 出 一 盒 火柴 点 香烟 (从 左右 两 个 口袋 
中 掏 火 柴 盒 的 概率 分 别 为 1/2), 而 各 次 掏 火 柴 的 习惯 是 相互 独立 的 ， 假 定 开始 的 时 候 ， 
两 个 口袋 的 火柴 盒 里 的 火柴 数目 是 相等 的 ， 都 等 于 n. 当 这 位 数学 家 从 口袋 里 掏 出 来 的 
火柴 盒 是 一 个 空 使 时 , 另 一 个 口袋 的 火柴 盒 中 的 火柴 根 数 的 分 布 列 是 什么 ? 现在 将 上 
述 问题 稍 作 推 广 , 设 数学 家 在 掏 火 柴 盒 的 时 候 ， 从 左 口袋 掏 火 荣 盒 的 概率 为 p, 从 右 口 
袋 掏 的 概率 为 1-p， 那 么 相应 的 结论 是 什么 ? 


解 ” 令 了 是 一 个 火柴 盒 为 空 的 时 候 另 一 个 火柴 盒 中 火柴 的 根 数 . 对 于 大 = 0,1,… ,n, 记 

Lk 或 Rr) 分 别 为 这 样 的 随机 事件 ; 当 第 一 次 发 现 一 个 火柴 盒 为 空 火柴 盒 的 时 候 ， 这 

人 (或 右 ) 口袋 里 的 火柴 盒 , 并 且 右 (或 左 ) 火柴 盒 里 剩 下 XK 根 火 柴 . 了 的 分 
列 关 












































px 有 二 P(EK) 二 PURE， 大 = 0,1 ,7 


我 们 将 选 左 口 袋 看 成 一 次 成 功 ， 选 右 口袋 看 成 一 次 失败 . 则 Lk 是 这 样 的 事件 : 前 
2n 一 上 次 试验 中 成 功 了 了 次 ,在 2n 一 上 十 1 次 试验 的 时 候 也 是 成 功 ， 这 样 





利用 对 称 性 ，PlLk) = PLR#)， 可 得 


97 一 天 2 一 大 
px(k) = P(L4) +P(RE) = (人 " (3) 。 第 和 


nn 2 


EA 


对 于 稍 作 推 广 的 问题 ， 即 从 左 口袋 取 火 柴 的 概率 为 p, 从 右 口 袋 取 火 某 的 概率 为 1-p， 
利用 相似 的 推理 得 到 





27 一 大 nr nk 
PlL:)=p pl(l—p)” , k=0,1,.…,n, 
n 


| 2n = EN se; gy 
P(R£)= (1—p) p {lo—p), k=0,1,.…,n. 
n 
， ; 2n i 天 nil 姑 一 友 n—kr n+1 
px(K) =P(LE) +P(R) = 0- 下 + "(1—p)"), 


k=0,1,.… ,n. 


12. Be 考虑 二 项 随机 变量 的 分 布 列 , 其 相应 的 参数 为 xn 和 书 
证 明 当 


1 一 DC， 了 一 0， 
并 且 ap 保持 为 固定 的 常数 和 的 时 候 , 这 个 二 项 分 布 列 趋 于 参数 为 和 的 泊 松 分 布 列 . 
解 ” 利 用 关系 式 入 = 7p, 写 出 二 项 分 布 列 如 下 : 





a nl 


py 天 二 nk 
Pe pi Mh 
n(n—1):.(n—k+i+l1) XY 
thet he Se A i sb et PS fo Nes . 
nk kk! n 


固定 hh 令 n 一 oo， 我 们 得 到 


一 大 十 > 一 天 及 n 
TE (1-35) : 尝 和 ， (1-35) 一 em， 
n 也 nn 


其 中 7 二 1,… ,kh， 这样， 对 每 个 hh 当 n 王 o% 的 时 候 ， 


A 
px(k) 一 e 有 


2.3 节 随机 变量 的 函数 

13， 一 对 夫妇 有 5 个 孩子 ， 他 们 又 另外 收养 了 2 个 女孩 ,组 成 一 个 家 庭 ， 他 们 杀生 的 5 个 
孩子 中 , 每 个 孩子 为 男孩 或 女孩 均 是 1/2 的 概率 ， 彼 此 相互 独立 . 写 出 这 个 家 庭 中 女孩 数 
的 分 布 列 . 

14. 设 是 一 个 随机 变量 ， 取 值 于 集合 {0,1,… ,9}, 取 每 个 值 的 概率 为 1/10. 

(a) 求 出 Y= 六 mod (3) 的 分 布 列 . 

(b) 求 出 了 =5 mod (X+1) 的 分 布 列 . 


15， 设 f 是 一 个 随机 变量 ， 取 值 于 [-n,] 中 的 整数 , 取 每 个 值 的 概率 为 1/(2n + 
求 Y= 了 In(X) 的 分 布 列 ,其 中 X = aq， 而 a 是 一 个 正 数 . 


2.4 节 期望、 均值 和 方差 


16. 设 了 是 一 个 随机 变量 ， 其 分 布 列 为 








S76 落 贡 = 一 外 一 11 

pxX(2) = 
0, 其 他 ， 

(a) 求 出 a 和 E[X] 

(b) 随机 变量 2 = (X 一 E[X])” 的 分 布 列 是 什么 ? 

(c) 利用 (b) 的 结果 ， 计 算 了 的 方差 . 

(d) 利用 公式 var(X) = 并 (zx 一 E[X]) px(z) 计算 了 的 方差 

17， 可 将 一 个 城市 的 温度 看 成 一 个 随机 变量 , 其 均值 为 10"C， 标 准 差 也 是 10°C. 如 果 某 一 

天 的 温度 在 均值 的 一 个 标准 差 的 范围 内 变化 , 则 称 这 一 天 的 温度 是 正常 的 ， 现 在 如 果 温 

度 用 中 来 表示 , 正常 天 气 的 温度 范围 应 该 怎么 表达 ? 


18. 设 a 和 b 是 两 个 正 整 数 ， 满 足 条 件 a < 5 . 令 工 是 一 个 随机 变量 ， 以 相等 的 概 
率 取 2,4a 1 b. 求 了 的 期 望 和 方差 . 

19.* 10 个 盒子 中 的 某 一 个 放 有 奖品 . 为 确定 起 见 ， 将 这 10 个 盒子 编 上 号 ， 由 1 号 到 10 
题 和 回答 问题 的 方法 可 以 逐步 将 奖品 所 在 的 位 置 确定 下 来 . 下 面 是 两 种 问 问 
题 方 2 


(a) 枚 举 法 . 用 这 样 的 问题 问 : “奖品 是 不 是 在 盒子 K 中 ? ” 


(b) 二 分 法 . 用 排除 法 把 将 近 一 半 的 盒子 淘汰 ， 例 如 可 用 这 样 的 问题 进行 排除 : “ 奖 
品 所 在 的 盒子 的 号 码 是 不 是 小 于 或 等 于 fk? ” 






























































分 别 在 两 种 方法 之 下 计算 问 问题 次 数 的 期 望 值 . 
解 
(a) 不 妨 设 问题 是 这 样 问 的 : 第 7 个 问题 是 “ 痰 品 是 不 是 在 盒子 7 中 ?”, 而 奖品 是 


以 1/10 的 概率 在 盒子 7 中 . 故 间 7 个 问题 才 猜 中 奖品 的 概率 为 1/10. 这 样 平均 猜 中 
奖品 的 次 数 为 














10 


l , 1 


10 可 10 





(b) 假定 第 一 个 问题 是 ， “奖品 所 在 的 盒子 £ 是 否 满足 天 三 5? ” 若 回 答 为 “是 ”， 
则 第 二 个 问题 为 “奖品 所 在 的 盒子 k 是 否 满足 大 三 2? ” 若 回答 为 “是 ”, 则 奖品 就 
在 “1，2” 之 内 .再 问 一 个 问题 : “奖品 所 在 的 盒子 K 是 否 满足 大 研 1? ” 就 可 以 确 
定 这 个 奖品 了 . 这样 , 若 奖品 在 盒子 “1” 或 “2” 内 ， 只 需 问 三 个 问题 即 可 确定 奖品 的 
位 置 . 利用 这 种 方法 可 知 ， 一 共有 6 种 位 置 ， 需 要 问 三 个 问题 才能 确定 其 位 置 , 另外 有 4 
种 位 置 ， 需 要 问 四 个 问题 才能 确定 下 来 . 而 奖品 在 每 一 种 位 置 的 概率 为 1/10.， 这样 要 
确定 奖品 的 位 置 , 需要 问 问题 的 平均 个 数 为 





















































1 6 
.4 十 
10 10 
20， 巧克力 工厂 开展 了 一 个 宣传 活动 , 在 一 些 巧 克 力 糖 中 放 了 金奖 券 , 凭 这 个 奖券 可 以 
到 工厂 参观 并 可 随意 品尝 各 种 巧克力 . 假定 一 包 巧克力 糖 内 合金 奖券 的 概率 为 p. 求 出 
为 拿 到 金奖 券 所 需要 购买 的 巧克力 糖 的 包 数 的 均值 和 方差 . 
21. 圣彼得堡 悖 论 ， 抛掷 一 枚 均匀 的 硬币 , 直到 出 现 反 面向 上 为 止 ， 假 定 每 次 抛掷 是 独 
立 的 ， 若 你 抛 括 了 n 次 , 你 可 以 获得 2” 元 ， 你 得 到 的 钱 数 的 期 望 值 是 多 少 ? 你 愿意 
付 多 少 钱 玩 这 个 游戏 呢 ? 
22， 有 两 枚 硬币 ， 将 它们 同时 抛掷 的 时 候 , 其 中 第 一 枚 正面 向 上 的 概率 为 p。 第 二 枚 正 


面向 上 的 概率 为 q. 连续 地 同时 抛 扼 这 两 枚 硬币 ， 直 到 出 现 一 枚 正面 向 上 , 另 一 枚 反面 
回 上 为 止 ， 假 定 所 有 的 抛掷 是 相互 独立 的 . 


(a) 写 出 抛 撕 次 数 的 分 布 列 、 期 望 值 和 方差 . 
(b) 最 后 一 次 抛掷 得 到 第 一 枚 硬币 正面 向 上 的 概率 有 多 大 ? 


23. (a) 连续 抛掷 一 枚 均匀 的 硬币 , 直到 连续 出 现 两 次 正面 向 上 或 反面 向 上 为 止 . 写 出 
抛 括 次 数 的 分 布 列 、 期 望 值 和 方差 . 


(b) 现在 假定 连续 抛掷 一 枚 均 勾 的 硬币 , 直到 出 现 正面 向 上 ， 紧 接着 出 现 反 面向 上 为 
止 . 写 出 抛掷 次 数 的 分 布 列 、 期 望 值 和 方差 . 


2.5 多 个 随机 变量 的 联合 分 布 列 


“3=3.4. 
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24. { 某 } 股票 经 纪 人 买 了 甲 股票 100 股 ， 乙 股票 200 股 . 令 了 和 了 分 别 为 甲 、 乙 两 个 股 
票 在 某 一 时 期 的 价格 变动 . 假定 了 和 了 的 联合 分 布 列 为 二 元 集合 


27T<4 1l<y—T<1 
中 的 整数 格 点 上 的 均匀 分 布 . 
(a) 写 出 了 和 了 的 边缘 分 布 列 和 均值 . 
(b) 写 出 经 纪 人 的 平均 利润 . 


25. { 某 } 一 班 上 有 4 个 学 生 参 加 一 个 测验 ， 测 验 共 有 wm 道 题目 . 假定 学 生 7 上 交 了 
前 mi 道 题目 的 答案 ，? = 1,…* ,nn. 

(a) 教师 随机 地 从 这 些 答案 中 选 出 一 份 答案 ， 记 作 ( 了 ，.7)， 其 中 了 为 学 生 的 号 码 ( 
1 E141,… ,n)) ，. 为 题目 的 号 码 ， 假 定 所 有 的 答案 是 以 相等 的 可 能 性 被 选中 的 ， 计 算 
7 和 J 的 联合 分 布 列 和 边缘 分 布 列 . 


(b) 假定 学 生 7 对 .7 道 题目 能 够 正确 回答 的 概率 为 Pij， 同 时 假定 一 道 题目 回答 正 
确 可 以 得 a 分 ， 否 则 得 5 分 .计算 学 生 7 所 得 的 总 分 的 期 望 值 . 


26， 几 个 随机 变量 的 最 小 值 的 分 布 列 ， 你 的 高 尔 夫 成 绩 是 一 个 随机 变量 , 其 得 分 的 分 
布 是 {101,… ,110} 上 的 均匀 分 布 ， 为 了 改进 成 绩 , 你 决定 将 三 天 的 最 小 分 数 作为 你 的 
分 数 雍 即 了 等 于 min{X1、Xoz、Xa}, 其 中 X1、X2、Xs 表示 你 三 天 的 分 数 , 并 且 相互 
独立 ， 

(a) 计算 的 分 布 列 

(b) 车 以 了 作为 你 的 得 分 , 其 期 望 值 比 原来 的 三 天 的 平均 得 分 改进 了 多 少 ? 

27.* 多 项 分 布 ， 设 有 一 个 贷 子 ， 具 有 > 个 面 , 标记 为 1. … ,r， 将 般 子 连续 转动 
次 . 假定 在 每 次 转动 的 时 候 第 7 面 出 现 的 概率 为 BB 并 且 各 次 转动 是 相互 独立 的 ， 记 
Xi 为 n 次 转动 中 ， 第 7 面 出 现 的 次 数 . 

(a) 写 出 XX,… ,X, 的 联合 分 布 列 PX (本,… ,后 ) 

(b) 写 出 Xi 的 期 望 与 方差 


(c) 求 EXiXj](i#7) 



































(a) 设 次 转 动 后 得 到 一 个 转动 结果 序列 (试验 结果 )， 这 个 序列 中 第 了 面 出 现 和 
次 ，i 二 1,… ,r， 这 个 转动 结果 序列 出 现 的 概率 为 三 … 想 ， 以 生 ,… ,后 为 特征 的 斌 
验 结果 形成 一 个 集合 (事件 )， 这 个 事件 中 的 试验 结果 的 个 数 为 多 项 式 系数 ( 见 1. 6 节 ) 


n nl 
Ly 1 








这 样 ， 
n | . 
PA, Ki 本 kr) = bs .大 下 六 pr”, 


其 中 应 六 0 =1 ,7T, 司 十 … 十 后 = 二 n， 在 其 他 情况 下 PXw…,xX,( 氏 ,后 ) = 二 0. 


(bp) 随机 变量 Xi 是 一 个 二 项 随机 变量 ， 相 应 的 参数 为 n 和 pi。 这 样 E[Xi] = np 
var(Xi) = npi(l — pi). 








(c) 设 1 关 j， 记 ik( 或 ijk) 为 伯 努 利 随机 变量 ， 当 第 4 次 转动 朋 子 的 时 候 出 现 7 
(或 7 ) 就 取 值 1， 否 则 取 值 0， 注 意 ，YikYjx 二 0 以 及 对 于 1 隆 有 Yik 和 Yjx 相互 独 
立 ( 因 此 EI] = Pip;)， 我 们 得 到 


E[XiX;] = E[(Yii + + Yn)(Yi+ + Yn)] 
= n(n— 1)E[Y1Y.] 
= n(n — 1)pip;. 


28.* 智力 测验 问题 . 智力 测验 答题 的 规则 是 这 样 确定 的 .一 共有 个 问题 ， 你 可 以 
选择 任意 的 回答 次 序 . 对 于 问题 i， 你 正确 回答 的 概率 为 Pi， 夺 你 回答 正确 , 就 可 以 
拿 到 奖金 ui ， 并 且 有 权利 选择 下 一 个 问题 回答 . 你 第 一 次 回答 错误 后 ， 你 不 但 得 不 到 
这 个 问题 的 奖金 , 而 且 失 去 了 继续 回答 问题 的 权利 ， 但 可 以 保留 以 前 得 到 的 奖金 总 额 . 
为 了 达到 最 大 的 期 望 总 奖金 ,证 明 你 应 该 按 Piv ll 一 P) 的 非 增 的 次 序 选择 你 所 要 回 
答 的 问题 , 即 Pivi/tl 一 Pi) 大 的 问题 优先 回答 . 


解 ”将 问题 {1,2,… ,7 的 回答 顺序 抽象 化 成 为 这 些 问 题 的 一 个 排列 = (i1,i2,… ,in) 
. 首先 回答 的 问题 是 4， 其 次 是 2，…… 所 谓 最 优 排列 是 指 按 最 优 排列 顺序 回答 问题 能 
获得 最 大 的 期 望 总 奖金 ， 记 














Pivi 
1—p: 


为 问题 7 的 权 值 . 我 们 称 排列 工 = (i,i2,… ,in) 中 相 邻 的 “问题 对 ”2k+1) 为 “ 道 
序 对 ”, 如 它们 满足 条 件 


wl{i) 一 


wik) < (1)， 
为 了 消除 这 个 逆 序 对 ， 只 需 将 排列 /中 的 认 与 st 的 位 置 对 调 , 即 变 成 
二 (2 对 于 已 ) 就 不 是 道 序 对 了 ， 现 在 我 们 分 
别 计算 A 和 L 的 期 望 总 奖金 : 
E[L 的 总 奖金 | = Pi Wil 十 Dir Dio Vi os + pii pio "Pin Ws 
EI 上 的 总 奖金 | 三 Pi Wi 十 二 2 Pi Vx 十 WE 
十 Pir SF "Pirc_s1 DicriDixr Ui 十 Dil Ey "Dirto Vici 十 Ws 十 Pi Te "Di, Vi, 


将 两 者 比较 得 


BE 人 的 总 奖金 ] 一 也 三 的 总 奖金 ] = (w(ist:1) 一 w(ix))(pu (1 一 Ps) 一 Psta)) 
由 此 可 以 看 出 ， 对 于 有 逆序 对 的 排列 志 不 可 能 达到 最 高 的 期 望 总 奖金 . 


现在 ， 最 优 排列 只 能 在 没有 逆序 对 的 排列 中 找 . 而 没有 逆序 对 的 排列 就 是 按 权 值 wt) 
非 增 的 排列 . 我 们 利用 下 面 的 两 个 事实 : 


(a) 任意 两 个 按 权 值 非 增 的 不 同 排列 2 和 L， 可 以 通过 一 系列 的 改变 问题 对 (ik,?k+1) 
的 顺序 由 Z 变 成 L， 而 每 次 改变 顺序 的 两 个 问题 ri#+1) 的 权 值 是 相同 的 ， 即 


wik) = wirt1). 


(b) 由 于 改变 顺序 的 两 个 问题 的 权 值 相同 ， 由 前 面 的 计算 知 ， 改 变 顺 序 前 后 的 两 个 排 
列 的 总 奖金 的 期 望 值 是 相同 的 . 


由 以 上 两 点 可 知 ， 只 要 排列 是 按 权 值 wti) 非 增 的 , 这 个 排列 就 是 最 优 的 排列 ， 其 期 望 
总 奖金 达到 最 大 . 
29.* 容 斥 恒等式 ， 设 身 ,4,… ,如 为 了 个 事件 . 记 51={ i<n} 


92 = {i,i2)|l < <i < n} 更 一 般 地 , 令 Sm 为 满足 条 件 1 < < <… <imn<n 的 
m 重 指标 1,… ,im 的 集合 . 证 明 下 列 容 斥 恒 等 式 成 立 : 


P(UR_i4k) = >》 P(A)— >》 P(AaN Ai) 


iES1 (i1,i2)ES2 


> P(A, Nn Ai, Nn 4is ) 2 (一 P(nR 4 ). 


(i1 ,12)ls)ESs 











提示 : ” 设 Xi 为 事件 4 的 示 性 函数 , 即 当 事件 4 发 生 的 时 候 ，Xi 取 值 为 1， 当 事件 
i Xi 取 值 为 0， 将 随机 变量 (1 一 六 (1 一 六 2)… (1 一 Xn) 与 相关 的 事件 
于 ~、 忆 > . 


解 ” 我 们 将 事件 = Ui=1k 与 随机 变量 X1,…* ,Xn 联系 起 来 . 事件 Be 发 生 等 价 于 
所 有 的 变量 六 1,…… ,Xn 取 值 为 0， 或 等 价 于 条 件 = (1 一 Xl 一 2)… (1 一 和 ==1 
由 于 了 只 能 取 值 0 或 1， 我 们 有 

P(B°) =P(Y = 1) = E[Y]. 


P(tB)=1—El(l=X1N1— X92}.-…(1— Xs) 


注意 ，Xi 与 二 的 下 列 种 种 关系 式 


E[Xi = P(Ai). E[Xi, Xi,] = P(Ai, N Ai,), 
E[X Xi Xi] = P(A N Ai N Ai), EIXIXa:--X,] = P(N Are), 


就 可 以 得 到 容 斥 恒等式 . 

30.* 阿尔 文 的 数据 库 中 有 2 个 记录 . 由 于 软件 的 故障 ,地址 和 人 员 的 对 应 关系 处 于 完 
全 随机 的 状态 . 阿尔 文 给 每 位 朋友 送 一 张 生日 卡 ， 但 是 地 址 完全 乱 了 .在 这 种 情况 下 ， 
至 少 有 一 位 朋友 得 到 他 本 人 的 卡 的 概率 有 多 大 ? 提示 : 利用 容 斥 恒等式 . 


解 ” 记 4 为 第 K 张 卡 送 到 正确 的 地 址 ， 我们 有 下 列 一 系列 公式 






































1 —1)! 
i 
n nl 
| A | (n — 2)! 
P(AkNM A;) = P(ARP(A;|Ak) = 一 全 
nn—l nl 
加 ee 和 党 1 (n — 3)! 
RAN nl 
等 等 ， 最 后 还 有 
/an \ 1 
PME 1Ak) 二 一 。 
nl 
将 这 些 结果 代入 容 斥 恒等式 
P(UR_i4k) = 》 P(Ai)— >》 P(AaN Ai) 
ziES1 (i1,i2)ES2 
+ >》， P(Ai N As na4is) 一 … 二 (-JD) P(N 4k). 
(i1 ,2)ls)ESs 
得 到 
, ny (nom1)! ny {no— 2)! nV {no— 3)! Tl 
P(UR_iA4k) = + EE 
k=1k) () nl (3 nl ® nl . nl 
= a oe (_Thyn-l1 工 
21 3! nl 
当 很 大 的 时 候 ， 这 个 概率 趋 近 于 1 一 ee.. 
J 
2.6 节 条 件 


31.， 独立 地 抛掷 一 个 6 面体 ， 共 4 次 . 令 耻 为 抛掷 得 到 1 点 的 次 数 ， 了 为 2 点 的 次 数 .二 和 
了 的 联合 分 布 列 是 什么 ? 


32， 丹 尼 尔 。 伯 努 利 的 共同 生活 问题 ， 设 有 wm 对 夫妻 共同 生活 着 . 假定 若干 年 以 后 每 
个 人 活着 的 概率 为 p。 并 且 咎 此 相互 独立 . 记 4 为 若干 年 后 活着 的 人 数 ，5 为 若干 年 
后 夫妻 都 活着 的 对 数 . 对 任何 a， 求 BS|4 = 中 

33.* 独立 地 抛 据 一 枚 硬币 若干 次 . 每 次 抛 描 的 时 候 硬币 正面 向 上 的 概率 为 p 我 们 仿 


定 , 当 连 续 出 现 两 次 正面 向 上 或 连续 出 现 两 次 反面 向 上 的 时 候 ， 抛 掷 就 停止 . 写 出 抛掷 
次 数 的 期 望 值 . 


解 ”一 种 办 法 是 直接 计算 了 的 分 布 列 , 其 中 了 就 是 抛掷 硬币 的 次 数 ， 然 后 再 计算 了 

的 期 望 值 ， 然 而 , 由 于 硬币 是 非 均匀 的 ， 计 算 了 的 分 布 列 有 一 些 麻 烦 ， 我 们 利用 全 期 

望 公式 并 适当 地 分 割 样本 空间 的 方法 进行 计算 . 记 Hi( 或 硬 ) 表 示 第 次 抛掷 出 现 正 

面 ( 或 反面 ) 的 事件 . 记 9= 1 一 了 表示 抛掷 硬币 出 现 反 面 的 概率 . 由 于 三 和 五 形成 样 
本 空间 的 一 个 分 割 且 FU = p,P(1) = gq, 利用 全 期 望 定理 得 


EIX] = pEIX|H'] + gE[XIn] 





再 次 利用 全 期 望 定理 ， 得 到 
E[X|Hi] = pE[X|HiN Ha] + gE[X|HiNT] = 2p+ g(l + ELX|D)), 
此 处 我 们 利用 了 两 个 公式 ， 其 中 一 个 公式 是 
E[X|HinN Ba] = 2， 
这 是 因为 两 次 出 现 正面 向 上 以 后 应 该 停止 抛 括 ， 另 一 个 公式 是 
EI[X|HiNT] = 1+ EXIN), 


这 是 因为 ， 若 抛掷 没有 结束 , 为 了 结束 抛掷 所 需要 抛掷 硬币 的 平均 次 数 只 依赖 于 最 后 
次 的 抛 括 的 结果 . 相似 的 分 析 可 得 


EIX 人 3] = 2g + p(1 + E[X|AH)). 

















| 2+p? 
E[X|Ti| = Te 
Ss 2 十 反 
E[X|Hi| = Te 
这 样 
2 于 
E[X] = 了 EB A DY 


利用 等 式 P+4=1， 得 到 





当 P=4=1/2 时 ，E[X]=3. 也 可 以 证 明 2< EIX] <3 对 一 切 p 成 立 . 


34.* 一 个 蜘蛛 在 一 条 直线 上 奶 苑 晶 ， 每 一 秒 钟 , 苍蝇 以 相等 的 概率 p 向 左 或 向 右 移动 
一 步 ， 以 概率 1 一 22 在 原 处 不 动 . 而 蜂 蛛 每 一 秒 钟 总 是 向 苍蝇 的 方向 移动 一 步 。 在 开 
始 的 时 候 ， 苍 蝇 与 蜘蛛 相距 7 步 .， 而 D7 是 一 个 取 值 为 正 整 数 的 随机 变量 , 7 的 分 布 列 
为 已 知 ， 如果 蜂 蛛 与 苍蝇 的 位 置 相 重合 ， 苍 蝇 就 被 捉 住 . 现在 的 问题 是 苍蝇 被 蜂 蛛 捉 住 
的 期 望 时 间 是 什么 ? 


解 记 7 为 蜂 蛛 捉 住 苍蝇 的 时 刻 ， 定 义 
44a: 开始 的 时 候 蜘 蛛 和 苍蝇 的 距离 为 c 步 ， 
Ba : 开始 一 秒 后 蜘蛛 和 苍蝇 的 距离 为 a 步 . 
显然 4 和 Da 都 是 随机 事件 . 我 们 的 步骤 是 首先 利用 (条 件 的 ) 全 期 望 定 理 计 算 
ET 然后 计算 局 4a]， 相 似 序 贯 地 计算 ET4d 最 后 我 们 利用 无 条 件 的 全 期 望 定 
理 计 算 EI1 
我 们 有 
A= (dN BaU(AgN By_1) UClAaN By_»), 若 dy>1. 
上 式 说 明 这 样 的 一 个 事实 : 开始 的 时 候 ， 苍 量 与 蜘蛛 距离 为 4.4d> 1 那么 1 秒 钟 后 它们 
的 距离 为 &( 如 果 苍 晶 离 开 蜂 蛛 ) 或 性 1( 如 果 苍 晶 保 持 不 动 ) 或 性 2( 如 果 苍 蝇 向 
蜂 蛛 方向 移动 )， 当 苍蝇 与 虹 蛛 距离 为 1 的 时 候 ， 
41 = 人 (4mBi)UI4nmn Bo). 
利用 全 期 望 定理 ， 我 们 得 到 
ElT|Aal = P(Ba|Aa)EIlT|As 门 Bal 

十 P(Ba_i IAa})ElT|As fl Ba-_i| 

十 P(Ba_2|Aa)ElT Aa 门 Ba_:|, 若 d > 1, 
和 

E[T|A1] Pl(Bi|A1 )EIT|Ai 门 BI1| 十 P(BolAl ) 卫 [441 门 Bol, 若 二 

根据 问题 中 提供 的 数据 ， 我 们 有 


P(Bi|A1) = 2p, Pl(Bo|A1) = 1 — 2p, 
E[T|A! 门 Bil 二 1 十 EIT|Ai], EIT|A! 门 Bol] = 


因此 利用 这 些 数 据 ， 可 以 得 到 
E[T|A1] = 2p(1 + EIT|A1]) + (1 — 27), 
或 


1 


将 这 些 数据 应 用 到 下 2 的 情况 ， 得 到 


EIT|As] 一 PE 人 742 门 Bol (1 == 2p)E[T|As 门 Bl 十 PE 人 |42 门 Bol. 
同时 我 们 有 
E[T|A2 门 Bol 一 1], 


EIT|A2s N Bi = 1 + EIT|Ai], 
E[T|A; 门 Bo 二 1 十 E[T|A2], 


将 这 些 量 代 入 ELTI42] 的 表达 式 中 ， 得 到 
EIT|A2] = p(1 + E[T|A2]) + (1 —2p)(1 + E[T|A1]) +p 


| a 1 
= p(ll + E[T|A2]) + (1 — 2p) ( 十 一 十 了 


上 式 经 过 整理 得 到 


对 于 d > 2， 我 们 可 以 得 到 
EIT|Aa] = p(l + E[T|Ag]) + (1 — 27)(1 + EIT|Ag_1]) +p(l +E[T|Ag_2)). 


由 于 EITI4] 和 EITI42] 已 经 求 得 ,利用 上 式 可 以 递 推 地 将 一 切 EITlAa] 求 得 ， 最后， 
给 定 的 分 布 列 , 利用 全 期 望 公式 可 以 求 得 7 的 期 望 值 : 


E[T] = >》 pp(d)E[T|Aal. 
d 





35.* 利用 单个 随机 变量 的 函数 的 期 望 值 规 则 验证 下 面 的 期 望 值 规则 : 
Elg(X,Y)] = > 2 9g(z;,y)pxy(z, 切 . 
z 3 


然后 再 将 所 得 到 的 期 望 值 规则 应 用 到 线性 函数 的 特殊 情况 , 得 到 公式 
ElaX + bY] = aE[X| + bEIY], 





其 中 a 和 2 是 常数 . 


解 ” 我 们 利用 全 期 望 定理 将 问题 归结 为 单个 随机 变量 的 函数 的 期 望 规则 : 





Elg(X.,Y) pe WE[gX,Y)Y = 
一 5 pyr(WE (X,Y 二 让 
y 
= Pr(y) > sr, ypxlY (zly) 
y 
= 》 > g(r, ypxy(r,y). 
r y 
注意 , 在 上 式 的 第 三 个 等 式 用 到 了 关于 单个 随机 变量 了 的 函数 glX, 奶 的 期 望 值 规 则 . 
对 于 线性 函数 ， 由 期 望 值 规则 得 到 
ElaX + bY Dh y) 
一 了 >》 Pxrl IT,Y) 十 b》， y》 pxy (7,Yy) 
r y y I 
=a DS rpxl7T)+b > ypy ly) 
y 


I 








= aE[X] + bE[Y]. 
36.* 条 件 分 布 列 的 乘法 规则 ， 设 不 人 2 为 随机 变量 . 
(a) 证 明 
PX,Y,2(7,Y,2) = Px (TpYIx (YT) pax,Y (Ir, Y). 
(b) 将 此 公式 解释 成 1. 3 节 的 乘法 规则 的 特殊 情况 
(c) 将 乘法 规则 推广 到 多 个 随机 变量 的 情况 . 




















解 
(a) 我 们 有 
PXYZ2(T,Y,2) =P(X =7I,Y =Y,2 = 2) 

=P(X = Zz)P(Y =y,2 = ee 一 工 ) 
ee = =Yy) 
=PpxlT)py x(y|T)pzx,r\ ee 

(b) 将 公式 写成 

和 三 
rT,Y =Y) 





的 形式 ， 化 成 了 1. 3 节 中 的 乘法 规则 . 





(c) 推广 的 形式 是 


PKI KDE Dn) 
= px (TPXa X(T2|T1) PX IX, Xa (TnlT1, Tn-1). 

37.* 泊 松 随机 变量 的 分 解 . 传送 器 发 出 的 信号 是 一 个 0--1 信号. 发 1 的 概率 为 p， 发 
0 的 概率 为 1-p， 并 且 和 以 前 所 发 的 信号 独立 . 现在 假定 在 一 定时 间 内 发 出 信号 的 个 数 
为 泊 松 随机 变量 , 其 参数 为 和 证 明 在 同一 段 时 间 内 发 出 1 的 个 数 也 是 泊 松 随机 变量 ， 
其 参数 为 PA 

解 设 工 和 上 了 分别 为 同一 段 时 间 内 发 出 的 信号 1 和 0 的 个 数 . 那么 Z = 六 十 Y 就 是 这 
一 段 时 间 内 发 出 信号 的 个 数 . 利用 条 件 概率 公式 , 我 们 有 


P(X=n,Y =m)=P(X =n,Y=mlZ=n+m)P(lZ =n+m) 


n+m eArtm 
ni mm 
一 pll—p) -> 
n (十 722)1 


eAp)" e— Ml-p) (At 过 p) )™ 


nl ml! 























因此 


PlX =n)= bp P(X =n,Y = m) 


m=0 


一 Xp， 30 jj 
e AP[APp)m _A(1_p) Sa (A(1 2 p))™ 
一 \ ‘ cm 

nl _ ml! 

m=0 

AP{ A )" 
€ (MAP) A(1-p) A(1-p) 
ed e 

nl 

e P(Ap)" 


nl 
这 说 明 了 是 一 个 泊 松 随机 变量 ， 参 数 为 和. 
2.7 节 独立 性 


38， 爱 丽 丝 在 上 班 路 上 要 通过 四 个 路 口 , 每 一 个 路 口 以 相等 的 概率 出 现 红 灯 或 绿灯 , 而 
且 各 个 路 口 的 红绿灯 的 出 现 是 相互 独立 的 . 


(a) 写 出 爱丽 丝 所 遇 到 的 红 灯 数 目的 分 布 列 、 均 值 和 方差 . 
(b) 假定 遇 到 每 个 红 灯 会 等 待 2 分 钟 , 计算 爱丽 丝 在 上 班 路 上 花费 时 间 的 方差 . 
39， 每 天 早上 ， 饥 钱 的 哈里 总 要 吃 几 个 鸡蛋 . 假定 哈里 每 天 吃 鸡蛋 的 个 数 是 一 个 随机 变 


量 , 吃 掉 的 鸡蛋 个 数 是 1 到 6 个 不 等 ， 而 且 在 {1, 2, 3, 4, 5, 6} 上 均匀 分 布 . 令 不 为 哈里 10 
天 所 吃 掉 的 鸡蛋 数 . 求 了 的 均值 和 方差 . 




















40. 评分 办 法 而 知名 ， 对 于 每 篇 论文 , 他 的 评分 是 在 集合 
{4, 4—, B+, B, B—, C+} 上 等 概率 地 分 布 而 对 各 篇 论文 的 评分 是 相互 独立 的 .为 了 使 
得 每 种 评分 等 级 至 少 对 应 一 篇 论文 ， 你 大 概 需要 交 多 少 篇 论文 ? 


41， 你 开车 上 班 ， 一 年 工作 50 周 ， 每 周 工作 5 天 . 每 天 你 得 到 交通 罚单 的 概率 为 
Zr0.02, 而 且 各 天 之 间 是 否 得 到 罚单 是 相互 独立 的 ， 记 了 为 你 一 年 中 得 到 的 罚单 数 . 


(a) 你 得 到 的 罚单 数 刚好 等 于 EIX] 的 概率 有 多 大 ? 
(b) 利用 泊 松 分 布 近似 地 计算 (a) 中 的 概率 . 


(c) 假定 每 张 罚单 的 罚款 额 分 为 10 元 、20 元 和 50 元 ， 相 应 的 概率 分 别 为 0. 5, 0. 3, 0. 2， 
并 且 各 张 罚 单 的 罚款 额 之 间 是 相互 独立 的 ， 求 出 一 年 中 你 的 交通 罚款 总 额 的 均值 和 方 


CC 。 


(d) 假定 你 不 知道 p 的 值 ， 但 是 在 一 年 中 你 得 到 5 张 罚单 .你 用 
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估计 p 的 值 ， 假 定 了 与 pb 的 差 是 在 样本 平均 的 5 倍 标准 差 之 内 , p 的 变化 范围 是 什 
2 








42.， 计算 问题 ， 此 处 讨论 的 问题 是 计算 单位 正方 形 中 的 子 集 5 的 面积 的 方法 . 我 们 利 
用 单位 正方 形 上 服从 均匀 分 布 的 一 串 随机 的 点 列 . 如 果 第 7 个 点 是 在 集合 S 中 ， 令 
Xi 二 1， 否则 为 0. 现在 设 XX1,…* ,六 n 是 这 样 生成 的 随机 变量 序列 ， 记 

Xl 5 a 5 Xn 


了 2 








(a) 证 明 lSn] 等 于 子 集 5 的 面积 , 而 var(5n) 当 p 无 限 增加 时 趋 于 0. 


2 证 明 为 了 计算 Sn 的 值 ， 我 们 可 以 利用 Sa-1 和 Xn 的 值 ， 而 并 不 依赖 于 以 前 的 
… ,Xn-1， 写 出 一 个 公式 . 


(c) 利用 计算 机 的 随机 数 发 生 器 写 一 个 计算 机 程序 , 产生 数列 Sn;? = 1,2,…… ,10 000. 
其 中 5 是 单位 正方 形 的 内 切 圆 . 怎样 利用 你 的 程序 去 近似 r 的 值 ? 


(d) 利用 类 似 的 计算 机 程序 去 近似 地 计算 单位 正方 形 内 由 条 件 0 全 cos 77 十 sin my 三 
所 确定 的 点 集 的 面积 . 


43.* 设 了 和 了 是 两 个 相互 独立 且 具 有 相同 分 布 的 几何 随机 变量 ， 其 参数 为 p. 证 明 








、 1 
P(X =iX+Y =n)= ， 1 二 1,.…,n—l1. 
nO—l1 





解 “ 可 以 将 参数 为 p 的 几何 随机 变量 理解 为 连续 抛掷 一 枚 硬币 直到 正面 出 现 所 需 抛 折 
的 次 数 , 而 每 次 抛掷 时 正面 出 现 的 概率 为 p. 这 样 PLX =ijX+Y =n) 可 以 解释 为 : 
在 殷 据 硬币 的 序列 中 , 第 2 次 出 现 正 面 所 需 抛掷 次 数 为 a 的 条 件 下 , 第 1 次 出 现 正面 的 时 








刻 为 第 Z 次 抛掷 的 概率 . 可 以 直观 地 解释 为 : 已 知 第 2 次 抛 括 时 ， 出 现 第 2 次 正面 , 由 
于 对 称 性 ， 第 1 次 正面 出 现 的 抛 括 时 刻 是 等 概率 地 分 布 在 第 1 次 到 第 n 一 1 次 抛掷 上 . 现 
在 形式 地 证 明 这 个 事实 ， 首先， 我 们 有 


, P(X=iX+Y=n) P(X=iP(Y =n-? 
de eet es ess eA 


P(X+Y =n) P(X+Y=n) 
同时 
P(X =i)=p(l1—p)!, i>1, 
P(Y =n-i)=p(l1 -pT!, ni>l, 


p (1—p)” , 着 到 一 1,… .jw J 
0， 其 他 . 


由 此 可 知 ， 对 于 ,7? 一直 中 的 任何 2 和 性 均 有 
P(X =ilX+Y =n)=P(X =j|X +Y =n). 


P(X =i)P(Y =m 一 让 = 


从 而 


1 
P(X =iX+Y =n)= 一 一) 1 一 1 .nl1. 
n—1 


44.* 设 了 和 了 是 两 个 随机 变量 ， 其 联合 分 布 列 已 知 . 又 设 g 和 分 别 为 了 和 了 
的 函数 . 证 明 若 了 和 了 相互 独立 , 则 glX) 和 R(Y) 也 相互 独立 . 
解 ” 令 0U=g(X),V =h(Y)， 我 们 有 
puv (u,v) = > ， pxY lz,y) 
{(z,y)|9(7)=u,h(y)=v} 


= 2 px(r)prly) 
{(z,y)|9(7)=u, hly)=v} 


= pxlr) 》 pr(y) 


{zg(7)=u)} {ylh(y)="} 


= pulu)pvy {vu), 
这 说 明 V 入 相互 独立 . 
45.* 方差 的 极 值 ， 设 六 ;Xn 为 独立 同 分 布 的 随机 变量 序列 , 六 = 入 十 … 十 六 n. 


(a) 假定 Xi 为 伯 努 利 随 机 变量 , 参数 为 Pp， 而 参数 序列 Pl,…… ,Pn 满足 条 件 
EIX] = p> 0 证明 了 的 方差 当 pi 全 等 于 p/n 的 时 候 达 到 最 大 





(b) 假定 Xi 为 几何 随机 变量 ， 参 数 为 P， 而 参数 序列 P1,… ,Pn 满足 条 件 


EIX]==k> 0 证 明 了 的 方差 当 Pi 全 等 于 m4 的 时 候 达到 最 小 . 





两 部 分 具有 完全 不 同 的 特征 ，] 
解 
(a) 我 们 有 


n n 


var(X)= >》 var(X ) = >》 pill 一 六 ) 一 太一 om 
i=1 


t=1 i=] 


[ 注意 ，(a) 和 (p) 


n 


> ee 


n 了 pi 
最 大 化 方差 的 问题 归结 为 最 小 化 i=17?i 的 问题 ， 由 下 面 的 恒等式 (注意 到 可 


nn nn nn 
本 p? 一 >》 (pi 一 碎 /7 )2 十 (n/n)’, 
t=1 这 1 t=1 


可 知 二 在 Pi= A/n(i=1,…,n) 的 时 候 达到 最 小 . 
(b) 我 们 有 


和 





var(X) = Dvar(Xi) 一 > A 
ti 一 1 


i=] 


作 变 换 ;= 1/Pi = ELXi| 这 样 约束 条 件 变 成 
DO_ = 


i=] 


在 此 约束 条 件 下 了 的 方差 达到 最 小 值 的 问题 变 成 最 小 化 


n n 
Dn-1)= DR- 
i=1 这 1 





的 问题 ， 这 与 (a) 中 讨论 的 问题 是 一 样 的 . 当 取 上 =nG =1…)m) 时 使 得 var(X) 达 


到 最 小 值 , 即 Pi = n/n(li= 1,.… ,n) 时 使 得 var( 立 ) 达到 最 小 . 


46. * 煽 和 不 确定 性 ， 设 了 是 一 个 随机 变量 , 它 的 取 值 范围 为 fl 


概率 分 别 为 {P1,… ,mm 了 的 炉 定 义 为 


"" ,Tn 上 相应 的 取 值 


HIX)=— Sm log pi. 
i=1 


(这 个 问题 中 的 所 有 对 数 都 是 以 2 为 底 的 对 数 . ) 焙 了 (入) 是 关于 随机 变量 X 取 值 不 确 
定性 的 度量 . 为 了 给 出 一 个 直观 的 印象 ， 注 意 到 互 (从 ) 二 0, 并 且 当 了 的 取 值 趋 于 确定 
es 1 0 趋 于 1)，H(X) 的 值 趋 于 0( 这 是 由 于 当 PsS0 或 
卫 写 1 时 ,PPlogpsD0 


炉 是 信息 论 的 基本 概念 ， 它 最 早 由 香农 提出 , 在 许多 专业 的 教材 中 均 有 陈述 .例如 ， 设 
2 及 下 取 有 限 个 值 ， 为 确定 了 的 值 , 通常 用 “是 非 题 ”的 方法 逐步 确 

定 ( 比 如 “ 否 等 于 zl? “或 ”了 是 否 小 于 zx5? ”), 为 确定 了 的 值 所 需要 问 的 问 

是 数 的 平均 数 的 下 只 为 HX)， 进 一步, 设 为 了 确定 一 组 独立 同 分 布 的 随机 变量 

X1, 党 2 全 的 值 所 需要 回答 问题 的 平均 数 为 则 当 充分 大 的 时 候 ， 可 以 使 km 
与 了 (XA) 任意 地 靠近 . 


(a) 证 明 如 果 和 …… ,gn 是 满足 Ze =1 的 一 组 非 负数 , 则 


n 


H(X)<— 》 pi log qi, 
i=1 





























2 号 成 立 的 充 要 条 件 是 4 = Pi 对 一 切 7 成 立 ， 作 为 特殊 情况 , 证 明 HlX) logn,， 
号 成 立 的 充 要 条 件 是 Pi = 1/7n 对 一 切 成 立 .提示 : 利用 不 等 式 ha <a 一 1 对 
a > 0 成 立 , 并 且 只 有 当 a = 1 的 时 候 等 号 成 立 . 这 里 Ina 是 自然 对 数 . 


(b) 设 了 和 了 是 取 有 限 个 值 的 随机 变量 ， 其 联合 分 布 列 为 PKrt' 功 定义 
0) = Spxrle, y) log XY (TY) 


“px(T)py (y) 
证 明 T(X, 站 三 0, 并且 IT(X, 了 =0 成 立 的 充 要 条 件 是 XY 和 了 相互 独立 . 
(c) 证 明 














I(X,Y)= H(X)+ H(Y)— H(X,Y,), 


其 中 
H(X,Y)=— 和 >》 pxr(z， y) log px.y (zr,Y), 
I y 
H(X)=— >》 px(z) logpxl7), HI(IY)=— >》 Pr log py ly). 
I y 
(d) 证 明 


I(X,Y)= H(X)— H(X|Y), 


H(XIY)=— >》 py(y) Sy pxlY(z|y) log pxly (zl|y). 
y > 4 


[注意 : 可 以 认为 H(XIY) 是 了 给 定 的 条 件 下 的 条 件 炳 , 即 给 定 Y=y ge 
了 的 条 件 分 布 求 炳 , 然后 对 所 有 可 能 的 y 值 求 平均 .这样 T(X,Y) = HLX) 一 HUXIY) 
知道 了 的 值 的 条 件 下 炉 ( 不 确定 性 ) 的 压缩 量 . (X,Y) 也 可 解释 为 | r 的 | 
那 一 部 分 的 信息 量 . 因此 也 成 为 了 和 了 相互 包含 的 信息 量 . ] 


解 
(a) 我 们 利用 不 等 式 ha < a 一 1( 可 以 这 样 证 明 : 对 于 a > 1， 


0 1 

ma= | "ap< 三 d3=a—1 ma- 人 sd8<— | d3=a—l1 
J1 J1 对 于 0 二 a<=<l, Ja da 

) ,得 到 


-Pn ln pi; + 2 ma- Dp mn (Es &) < Pn (£1!) = 0, 


i=1 








过 写成 并 的 充 要 条 件 是 qi 三 Pi 对 一 切 2 成立, 由 于 Inp = logpln2, 上 面 的 不 等 式 
人 H(X ) < 一 1Pilog qi 是 等 价 的 . 若 令 和 = 1/n(i=1,…,n) H(X) < 一 Di1Pilog qi 变 成 
HIX) < 全 二 


2 2 Px: Jpy ly) = 1 


(b) Px(z)py(y) 满足 条 件 ， 利 用 (a) 的 结论 ， 得 到 
2 2 Prrl®, y) loglpx,Y lz,Y) )> 2 Per 7,Y) log(px lz)py ly), 
y 








其 中 等 号 成 立 的 充 要 条 件 是 
pxY(z,) =Px(z)py(y) 对 一 切 x 和 yy 成 立 ， 
(c) 利用 和 # 之 定义 ， 可 得 


= 》 > pxy(z,Y) logpxy(r,)— > >_pxy(r,y) log(px (7T)py(y)), 
IT yy TT YY 


yy pry(z, ylogpxy (ry) = —H(X,Y), 


TT 其 


ls y) loglpx (T)py (yy)) Sn T,Y) log px(7) 
-eer Ty) log py (y) 
一 pal log px (Zz) Dn y) log py ly 


=H(X)+ H(Y). 


由 这 三 个 公式 ， 可 以 得 到 I(X,Y) = H(X)+H(Y)— H(X,Y). 
(d) 由 (c) 的 计算 ， 可 得 到 
2 T,Y) logpxX,Y (I,Y) 办 
dl 7,Y) logpy (Y) 
Ty 
Se > Devt y) log PC 
=H(X) + >》 > py(y)pxy (zly) logpxly (zly) 
I 


第 3 章 一 般 随 机 变量 


取 值 于 连续 区 域 的 随机 变量 是 十 分 普遍 的 . 在 高 速 公 路 上 汽车 的 速度 就 是 一 个 例子 . 若 
汽车 的 速度 可 从 速度 表 读 得 , 那么 我 们 可 将 速度 表 的 读数 看 成 离散 的 随机 变量 .但 是 ， 

为 了 将 汽车 的 真实 速度 模型 化 ， 连 续 随 机 变量 更 为 合适 . 多 种 理由 说 明 连 续 随机 变量 是 
概率 论 中 非常 有 用 的 概念 . 除了 刻画 细致 和 精确 外 , 连续 随机 变量 模型 可 以 利用 有 力 的 

分 析 工 具 解决 概率 的 计算 问题 ， 更 主要 的 是 ， 连 续 随 机 变量 还 可 以 刻画 茶 些 随机 现象 
的 本 质 , 而 单纯 靠 离散 随机 变量 ， 这 是 无 法 做 到 的 . 


所 有 在 第 2 章 中 讨论 的 概念 ， 例 如 期 望 、 分 布 列 和 条 件 等 都 有 对 应 的 概念 . 本 章 的 任务 
就 是 将 第 2 章 中 的 概念 在 连续 随机 变量 的 情况 下 重新 解释 . 












































3.1 连续 随机 变量 和 概率 密度 函数 


对 于 随机 变量 了 ， 若 存在 一 个 非 负 函数 fx， 使 得 
P(X €B)= Wn fxlr)dr 


对 每 一 个 实数 轴 上 的 集合 8 都 成 立 1， 则 称 了 为 连续 的 随机 变量 , 函数 fx 就 称 为 了 
的 概率 密度 函数 , 或 简称 PDF. PDF 的 概念 与 离散 随机 变量 的 分 布 列 是 相对 应 的 ， 特 别 
地 , 当 B 是 一 个 区 间 的 时 候 

















fxlz)dz 

| 1 积分 / 可 以 理解 为 黎 曼 积 分 , 我 们 假定 所 涉及 的 函数 是 黎 曼 可 积 的 ， 对 于 不 寻常 的 函数 或 集合 , 这 个 
积分 可 能 是 无 法 定义 的 ， 这 是 更 近代 的 数学 分 析 所 处 理 的 问题 . 我 们 通常 过 到 的 函数 是 具有 有 限 个 (或 可 数 个 ) 间 
| 断 点 的 逐 段 连续 函数 JX, 通常 的 积分 限 为 有 限 个 (或 可 数 个 ) 区间 的 和 ， 这 些 情 况 属于 歼 曼 积分 处 理 的 范围 . 











































































































b 
PE < 法 和 = fxlz)dz, 


Ja 


此 时 , 这 个 积分 可 以 理解 为 PDF 和 区 间 ?所 形成 的 曲 边 梯形 的 面积 ( 见 图 3. 1) . 对 于 单 


wh P(X = = 人 Fxizrjidz =0 
点 集合 a 我 们 有 . 由 于 这 个 原因 ， 区 间 的 端点 对 于 概率 的 
计算 不 起 作用 ， 即 


Pla<X<H)=Pao<X<b=Pla< <t= Pao<X < 


一 个 函数 能 够 成 为 PDF， 它 必须 是 非 负 的 ， 即 fx(7) 二 0 对 一 切 x 成立, 同时 它 还 必 
须 满足 下 面 的 归 一 性 条 件 


fk fxlz)drt = Pl-—-o0<X<000)=1. 


从 图 像 上 看 ，PDF 下 面 的 且 在 x 轴 上 面部 分 的 面积 必须 等 于 1. 





图 3.1 PP 的 和 和 了 耻 从 于 | 的 是 人 人 1 这 个 各 全国 中国 昌 


也 可 以 对 PDF 作 这 样 的 解释 : 对 于 很 小 的 5， 我 们 有 


Pll[z,z + 5) = / fxlr)dr % fxlr):5, 


J I 





这 样 , 我 们 可 以 理解 fxl7) 为 了 落 入 x 附近 的 单位 长 度 的 概率 ( 见 图 3. 2). 由 于 fxlz) 
是 概率 律 ， 不 是 茶 一 事件 的 概率 ， 故 jxtz) 可 以 大 于 1. 


PDF fx(2) 








Z 2 十 0 


图 3.2 PDFfx(7) 作为 x 附近 的 概率 律 的 解释 . 设 5 很 小 ,在 图 中 了 取 值 于 
zz+a 的 概率 是 图 中 阴影 部 分 的 面积 , 它 近似 地 等 于 xltz) 5 


例 3. 1 (连续 的 均匀 随机 变量 ) ”一 个 赌 客 在 赌场 转动 幸运 轮 ， 幸 运 轮 上 具有 连续 的 刻 
度 ， 从 0 到 1. 每 次 轮子 转动 停止 以 后 ， 固 定 的 指针 会 指向 轮子 上 的 一 个 数 . 假定 转动 停 
止 以 后 , 指针 指向 幸运 轮 上 任意 两 个 长 度 相 同 的 区 间 的 概率 是 相等 的 . 这 样 的 随机 试验 
可 用 一 个 随机 变量 XY 来 刻画 ，X 的 PDF 可 由 下 式 给 出 























十 三 


1 
fx(7z) = 
0， 其 他 ， 


此 处 常数 c 可 用 下 面 的 归 一 化 条 件 


0 1 1 
] = . fxlz)dr = / cdz 一 C / dz 一 ec 
J 一 Co 0 J0 


确定 ， 即 c=1. 


更 一 般 地 ， 可 以 考虑 取 值 于 区 间 [中 上 的 随机 变量 . 我 们 假定 了 取 值 于 l4; 外 的 任意 
两 个 长 度 相 同 的 子 区 间 的 概率 是 相同 的 . 这 种 随机 变量 称 为 具有 均匀 分 布 的 随机 变量 
这 种 随机 变量 的 PDF 由 下 式 给 出 : 





1 =: 


友 ( 网 = 142 一 2 
0， 其 他 ， 





( 见 图 3.3). fx(7) 在 可 上 的 常数 ( 忆 一 罗 可 从 下 面 的 归 一 化 条 件 得 到 |: 


%0 b 1 
| 三 . fxlz)dzr 一 下 pe 


PDF fx(2) 





图 3.3 均匀 随机 变量 的 PDF 


例 3. 2 ( 逐 段 常数 的 PDF) ”阿尔 文 开 车 上 班 ， 在 天 气 晴朗 的 日 子 ， 大 约 需 要 驾驶 15 20 
分 钟 , 雨天 需要 20 25 分钟， 在 每 种 情况 下 , 驾驶 时 间 都 是 在 各 自 的 范围 内 均匀 地 分 布 着 
的 ， 假 定 晴 天 的 可 能 性 为 2/3, 雨天 的 可 能 性 为 1/3， 若 把 阿尔 文 的 驾驶 时 间 了 看 成 随 
机 变量 , 那么 了 的 PDF 是 什么 ? 


我 们 把 “和 敬 驶 时 间 在 各 自 的 范围 内 均匀 地 分 布 ”理解 为 了 的 PDF 在 各 自 的 区 间 [15, 20] 
和 [20, 25] 上 分 别 为 常数 . 由 于 这 两 个 区 间 包 含 所 有 可 能 的 驾驶 时 间 ， 了 的 概率 密度 函 
数 在 其 他 范围 内 应 该 是 0， 这样 
























































C1， 各 15 过 
fx(7) = C2， 4 加 区区 二 区 
0， 其 他 ， 


归 区 .2 


此 处 和 c2 是 第 数 ， 而 这 些 常 数 可 从 雨天 和 晴天 的 概率 确定 . 


9 20 20 
= 二 P( 精 天 ) = de 2 cldz = 5cl1， 
3 15 15 
1 有 25 25 
= 二 P 了 (南天) = Fst = / c2d2z = 5c2， 
3 20 20 
由 此 得 到 
I 
Cl = FE C2 = 5 





将 这 个 例子 进行 推广 ， 考 虑 XY 的 下 列 形式 的 PDF 
Ci) ti i ds 
0， 其 他 ， 


其 中 m<o<…<mm 是 第 数 ，c1,c2,… ,cn 是 一 组 非 负 数 ( 见 图 3. 和， 常数 
cl,c2,"… ,cn 可 以 像 前 面 那样 ， 由 一 组 条 件 确定 ， 一 般 说 来 ， 常 数 ci 必须 满足 下 面 的 
归 一 化 条 件 : 


jx(z) = 


n—l n—l 


{ln Qi 十 1 
] 一 / fxlz)dr = > 六 / cidz = ailain — ai). 
时 这 1 “i cl 


1 


PDEF fx(2) 





图 3.4 含有 三 个 区 间 的 逐 段 常数 PDF 
例 3. 3 (可 以 取 任 意 大 的 值 的 PDF) ”考虑 不 的 下 列 PDF 





一 二， 在 0<z 芯 1 
jet) = 2 
0， 其 他 . 
尽管 在 x 趋 于 0 的 时 候 fx(z) 的 值 可 以 任意 地 大 , fx(z) 仍然 是 一 个 合法 的 概率 密度 函 
数 ， 这 是 因为 


1 
= 1. 





上 xitzjdz = i- .| 
关于 PDF 性 质 的 小 结 
设 了 的 PDF (概率 密度 函数 ) 为 Jx(7) 
。 xfz) >0 对 一 切 x 成 立 . 


) Fxizrjdrz =1 
。 设 5 是 一 个 充分 小 的 正 数 ， 则 P([z,z + 0) sx(z) 6. 
。 对 任何 实数 轴 上 的 子 集 甩 
P(X E B)= xlz)dz. 
EB) | fx 


3.1.1 期 望 
连续 随机 变量 了 的 期 望 或 均值 是 由 下 式 定义 的 :“ 




















rfxlzT)dz 
2 在 此 ， 我 们 必须 关心 的 一 种 可 能 性 是 : 职 分 | 可 能 取 无 限 值 或 不 存在 ， 具体 地 说 ， 我 们 称 期 望 


[zlfxlr)dr < cc 
是 有 定义 的 , 是 指 / -~x , 此 时 积分 是 有 确切 定义 的 ， 并 且 积 分 值 小 于 无 穷 . 


作为 期 望 没有 确切 定义 的 合子， 考虑 症 的 PDF fx(z) = c/(1 十 工 ) 此 处 < 是 一 个 归 一 化 常数 ， 函 数 


/ (1/z)dr = ec / (lz|fx(z))dr = ec 
#1 , 可知 J 一 oo 


|T|fx(z) 在 |x| 充 分 大 的 时 候 可 用 cy |z| 逼近 .由 于 ， 
这 样 , 忆 [ 六 ] 是 没有 定义 的 ， 尽 管 了 的 PDF 相 对 于 0 是 对 称 的 . 
本 书 中 ， 如 无 特别 申明 ， 总 是 假定 连续 随机 变量 了 的 期 望 是 有 定义 的 . 



















































































EI[X| = 站 rfx(r)dz. 


连续 随机 变量 的 期 望 的 定义 与 离散 随机 变量 的 情况 完全 相似 , 只 须 将 定义 中 的 分 布 列 置 
换 成 概率 密度 函数 (PDF)， 求 和 置换 成 积分 . 正如 在 第 2 章 中 那样 ，ElX] 可 以 解释 成 PDF 
的 重心 和 大 量 独立 重复 试验 中 了 的 取 值 的 平均 数 ， 毕 竞 ， 积 分 是 求 和 的 极限 形式 , 连 

续 情 况 的 期 望 的 数学 性 质 与 离散 情况 是 极其 相似 的 ， 


设 了 是 一 个 连续 随机 变量 ， 其 PDF 为 fx(7), 则 了 的 任意 函数 = g(tX) 也 是 一 个 随机 
变量 ， 注 意 , 了 可 以 是 连续 随机 变量 ， 例 如 ， 取 = gtX)= 二 六， 此 时 了 的 PDF 与 了 的 
PDF 相 同 . 但 是 了 也 可 能 是 离散 随机 变量 ， 例 如 当 z > 0 时 ， 令 gl7) = 上 否则 令 

gz 二 0， 此 时 ， 了 只 取 0 和 1， 了 是 一 个 离散 的 随机 变量 . 但 是 无 论 是 离散 的 或 连续 的 

结果 , 下 述 的 期 望 规 则 总 是 成 立 的 : 




















Elg(X)] = 三 glz)fxlr)dz, 
( 见 本 章 末 尾 的 习题 ，) 


随机 变量 了 的 n 阶 矩 定义 为 EIX"] 随机 变量 了 的 方差 定义 为 随机 变量 (X 一 ELX])? 
的 期 望 ， 记 为 var(X). 


人 的 性 质 列 成 下 表 , 这 些 性 质 与 离散 随机 变量 的 性 质 是 完全 相同 


连续 随机 变量 的 期 望 的 性 质 
记 不 为 连续 随机 变量 ， 其 相应 的 PDF (概率 密度 函数 ) 为 fxl7). 


E[X| = 三 rfxlr)dz. 





。 关 于 随机 变量 gl(X) 的 期 望 规则 为 
Elg(X)] = [. glr)fxlr)dz. 
。 了 的 方差 由 下 式 给 出 : 


var(X) = E[(X — E[X| 六 一 / (zt — E[LX]| )2Fxfzjdz. 


。 关 于 方差 ， 下 列 公式 成 立 : 
0 < var(X) = E[X’] 一 (E[X])2. 
。 设 Y=aX+b 其 中 a 和 [为 常数 ， 则 


E[lY] = aE[X] +b, var(Y) = alvar(X). 


例 3. 4( 均 匀 随 机 变量 的 均值 和 方差 ) ” 设 随机 变量 了 的 分 布 为 让 上 的 均匀 分 布 ， 
见 例 3. 1， 我 们 有 








1 | 1 了 
入 三 石 2” | 
1 Pa 
~ ba 2 
a+b 
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这 个 期 望 值 刚好 等 于 PDF 的 对 称 中 心 守 
为 求 得 方差 ， 先 计算 了 的 二 阶 和 矩 ， 


b 2 
EX /天 cd 
Ja b—a 


1 by 
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这 样 ， 了 的 方差 为 


2 2 \2 \9 

。 . +ab+i+ + pp) (pa 

be Re 这 一 地 
3 4 12 








3.1.2 指数 随机 变量 
若 随机 变量 不 的 PDF 具有 下 列 形 式 : 





jx(z) = 


则 称 了 是 指数 随机 变量 , 其 中 和 是 分 布 的 参数 ， 和 > 0( 见 图 3. 5). 这 个 函数 是 合法 的 
概率 密度 函数 ， 其 原因 是 


fxlz)dzr = | Me rdzr = —e- 间 一 1. 
有 J0 


注意 ， 指 数 分 布 具有 这 样 的 特性 : 了 超过 茶 个 值 的 概率 , 随 着 这 个 值 的 增加 而 按 指 数 递 
减 ， 即 对 于 任意 4a 之 0, 





DO 
P(X >a)= / Me “dz = 一 ez 一 ea. 
Ja 


fx(2) fx(7) 





图 3.5 指数 随机 变量 的 PDFXe = 


指数 随机 变量 具有 广泛 的 用 处 ， 它 可 以 表示 到 发 生 某 个 事件 为 止 所 用 的 时 间 ， 例 如 ， 
这 个 事件 可 以 是 某 条 信息 到 达 计 算 机 、 一 台 仪 器 的 使 用 寿命 终止 、 一 个 灯泡 用 坏 了 或 
一 辆 汽车 出 一 次 车 祸 ， 等 等 . 我 们 将 会 看 出 ， 指 数 随机 变量 与 离散 的 几何 随机 变量 十 分 
相似 . 几何 随机 变量 也 与 某 一 个 我 们 感 兴趣 的 事件 发 生 的 (离散 ) 时 间 相 关联 .在 第 6 章 讨 
人 
分 理 . 


指数 随机 变量 的 均值 和 方差 由 下 列 公 式 给 出 : 

















E[X] = > var(X) = 亏 


这 些 公式 可 以 直接 计算 得 到 ， 利 用 分 部 积分 法 ， 


E[X|] = 1 ZXe-Xzdrz 
J0 


2 30 
十 人 edz 
0 J0 











再 次 利用 分 部 积分 法 ， 可 得 到 了 的 二 阶 矩 





最 后 ， 利 用 公式 var(X) = EEX] 一 (EX])” 得 到 


2 1 1 
varlX ) 一 x = x 一 Fe 





例 3.5 小 陨石 落 入 非洲 撒哈拉 沙漠 的 时 间 是 遵从 指数 分 布 的 ， 具 体 地 说 , 从 某 一 观察 
者 开始 观察 ， 直 到 发 现 一 颗 陨 石 落 到 沙漠 , 这 个 时 间 的 分 布 是 指数 分 布 ， 这 个 时 间 的 平 
均 长 度 是 10 天 .现在 假定 , 目前 时 间 为 晚上 12 点 整 . 问 在 第 二 天 早晨 6:00 到 傍晚 6:00 之 
间 陨 石 首 次 落下 的 概率 有 多 大 ? 


假定 是 为 了 观察 陨石 落下 所 需要 的 等 待 时 间 . 由 于 X 的 分 布 为 指数 分 布 ， 均 值 
1/ 和 = 10， 由 此 知 入 = 1/10, 所 求 的 概率 为 


P(1/4<X <3/4)=P(X>1/4)-P(X > 3/4) =e -ei 0.047 6， 


此 处 我 们 利用 了 公式 P(X >a)=P(X >4a)= ee 














3.2 分 布 函 数 


我 们 分 别 用 分 布 列 (离散 情况 ) 来 刻画 随机 变量 了 的 取 值 规 
律 . 现在 我 们 希望 用 一 个 统一 的 数学 工具 来 刻画 随机 变量 的 取 值 规律 . 分 布 函数 (用 记 
号 CDF 表 示 简 称 ) 就 能 完成 这 个 任务 . 随机 光量 了 的 CDF 是 x 的 函数 Fx, 对 每 一 个 x ， 
Fx(7z) 定义 为 P(X 三 Zi， 特别 地 , 当 了 为 离散 或 连续 的 情况 下 ， 


》 px(k)， 车 X 是 离散 的 ， 


KT 


i 4 
/ fx(Djdt， 若 XX 是 连续 的 . 
OO 




















a 








Pe = R(X 疙 :| 三 


分 布 函 数 又 称 累积 分 布 函数 , 累积 意味 着 fxl7) 将 XY 取 值 的 概率 由 -oo 累计 到 x 


在 一 个 概率 模型 中 ， 随 机 变量 可 以 有 不 同 的 类 型 ， 可 以 是 离散 的 , 也 可 以 是 连续 的 ， 其 
至 可 以 是 既 非 离散 也 非 连 续 的 . 但 不 管 是 什么 类 型 的 随机 变量 ， 它 们 有 一 个 共同 的 特 
征 , 即 都 有 一 个 分 布 函数 ， 这 是 因为 {Xz} 是 一 个 随机 事件 , 这 些 事件 的 概率 形成 概 
率 分 布 ， 今 后 , 凡是 刻画 事件 {X 7} 的 概率 的 ， 都 称 为 随机 变量 的 概率 律 . 因此 
离散 情况 下 的 分 布 列 , 连续 情况 下 的 概率 密度 函数 以 及 一 般 情 况 下 的 分 布 函数 都 是 相应 
的 随机 变量 的 概率 律 . 


图 3. 6 和 图 3. 7 分别 给 出 离散 随机 变量 的 CDF 和 连续 随机 变量 的 CDF 一 些 说 明 . 从 这 些 图 
像 以 及 CDF 的 定义 , 可 以 得 到 CDF 的 某 些 一 般 的 性 质 . 


PMEF px(2) 














0 某 些 离散 随机 变量 的 CDF， 通过 随机 变量 的 分 布 列 ， 可 求 得 相应 的 分 布 函 
Fx(r1)=P(X <z)= px(k). 


这 个 函数 是 一 个 阶梯 函数 ， 在 具有 正 概率 的 那些 点 上 具有 跳跃 . 在 跳跃 点 上 ，fxl?) 
取 较 大 的 那个 值 ， 即 Extz) 保持 右 连续 


PDF fx(2) CDF Fx(2) 





a pb 区 a b LT 


J 某 些 连续 随机 变量 的 CDF， 通过 随机 变量 的 概率 密度 函数 , 可 求 得 相应 的 分 
函数 : 


FxlZz) 一 P(X < TT})= / fxlt}dt. 


概率 密度 函数 xltz) 可 由 CDF 经 微 商 得 到 





对 于 连续 随机 变量 ，CDF 是 连续 的 
CDF 的 性 质 


随机 变量 {7 } 的 CDFFx 由 下 式 定 义 ， 
对 每 一 个 ,Fx(7) = P(X < 77), 





并 且 Fx 具有 下 列 性 质 . 

Fx 是 单调 非 减 函数 : 

若 z<y 则 Fx(z) < Fx(y). 

当 z -oo 的 时 候 ，Fx(7) 趋 于 0， 当 z 二 ce 的 时 候 , Fx(7) 趋 于 1 

当 了 是 离散 随机 变量 的 时 候 ，fx(7) 为 x 的 阶梯 函数 . 

当 了 是 连续 随机 变量 的 时 候 ，Fx(z) 为 x 的 连续 函数 . 

当 了 是 离散 随机 变量 并 且 取 整数 值 时 , 分 布 函 数 和 分 布 列 可 以 利用 求 和 或 差 


分 互 求 : 


天 
Fx(k) = 》 px(i), 


zi 一 一 CO 








px(k)=P(X <k) -P(X <k m1)= Fx(k)— Fx(k— 1), 

其 中 k 可 以 是 任意 整数 . 

当 了 是 连续 随机 变量 的 时 候 ， 分 布 函数 和 概率 密度 函数 可 以 利用 积分 或 微分 
互 求 : 


dFyx, 
(XI). 
dz 





EX) = / fxlt}dt, fxl7z) = 
J 一 ou 








(第 二 个 等 式 只 在 分 布 函数 可 微 的 那些 点 上 成 立 . ) 


有 时 候 ， 为 了 计算 随机 变量 的 分 布 列 或 概率 密度 函数 , 首先 计算 随机 变量 的 分 布 函数 会 
更 方便 些 ， 在 连续 随机 变量 的 情况 下 , 我 们 将 在 4. 1 节 中 系统 地 介绍 如 何 用 该 方法 求 随 
机 变量 的 函数 . 下 面 是 一 个 离散 随机 变量 的 计算 例子 . 


例 3. 6( 几 个 随机 变量 的 最 大 值 ) 你 参加 某 种 测试 , 按 规定 三 次 测试 的 最 高 成 绩 作为 
你 的 最 终 成 绩 ， 设 




















X = max{X1, Xo, X3}, 
其 中 XI、Xs、Xa 是 三 次 测试 的 成 绩 , 了 是 你 的 最 终 成 绩 ， 假 定 各 次 测试 是 相互 独立 
的 ， 每 次 测试 成 绩 是 1 分 到 10 分 之 间 ， 并 且 PIX == 1/110,7=1,… ,10. 现在 求 最 终 成 
绩 了 的 分 布 列 Px. 
我 们 采用 间接 方法 求 分 布 列 ， 首 先 计 算 了 的 CDF， 然 后 通过 
px(k) = Fx(k)— Fx(k—1), i1=1,.…,10 


得 到 了 的 分 布 列 ， 对 于 fx(k)， 我 们 有 








Fx(k) = P(X < k) 
=P(X1 < k,X2 < k, Xa <k) 
= P(X1 < AP(X2 < A)P(Xs <h) 


PR 
-一 (5) - 


此 处 第 三 个 等 式 是 由 事件 {X1 < 寻 、{X2 < 有}、{X3 < 对 相互 独立 所 致 .这 样 了 的 分 


布 列 为 
,V3 过 3 
人 
本 例 的 方法 可 扒 广 到 个 随机 变量 XX1,…* ,Xn 的 情况 . 如 果 对 每 一 个 事件 
{Xi1 < zf < zr} 相互 独立 , 则 关 a ,Xn} 的 CDF 为 
F(z) = Fx, (7):…- Fx, (7). 


利用 这 个 公式 ， 在 离散 情况 下 通过 差分 可 得 到 Pxtz) 在 连续 情况 下 通过 微分 可 得 到 
fxlz). 


几何 和 指数 随机 变量 的 分 布 函数 


由 于 分 布 函数 对 一 切 随机 变量 都 适用 , 我 们 可 以 利用 它 来 探讨 离散 和 连续 随机 变量 之 间 
的 关系 ， 特 别 地 , 此 处 讨论 几何 随机 变量 和 指数 随机 变量 之 间 的 关系 . 
设 了 是 一 个 几何 随机 变量 ， 其 参数 为 乙 即 XY 是 在 伯 努 利 独立 试验 序列 中 直到 第 一 次 


成 功 所 需要 的 试验 次 数 ， 而 伯 努 利 试验 的 参数 为 p。 这 样 对 于 让 = 1,2,… ,我们 有 
P(X = Kk)=p(l—p)" ， 而 天 的 CDF 为 


n 


Feooln) = D pp pp (py Ey ee 
geo\nl, 一 - r 1 1— (1—p) p)， bs 


现在 设 XY 是 一 个 指数 随机 变量 ， 其 参数 A > 0. 其 CDF 是 


FoxplT)= P(X <7I)=0, rz<0, 














元 
FexptZ) 一 / 和 Xe-Atdt 一 e | 一 e ， TT> (0. 
J0 


现在 比较 两 个 分 布 函数 ， 令 5= 一 hl1 一 了 /和 ， 这 样 
-5 = =$: 
对 于 n= 1,2,… ,分布 函数 fexp 在 z=n65 处 与 fgeo 在 pn 处 相等 ， 即 


Fexpl (nd) = Fegeoln), n= 1,2,.…- 





现在 假定 我 们 以 很 快 的 速度 抛掷 一 枚 不 均匀 的 硬币 (每 5 秒 抛掷 一 次 ，5 之 1 )， 每 次 
We， 次 得 到 正面 向 上 所 抛掷 的 次 数 为 克 

一 次 得 到 正面 向 上 的 时 刻 为 X65. X5 与 参数 为 和 的 指数 随机 变量 十 分 接近 ， 这 只 须 
看 它们 的 分 布 函 数 即 可 ( 见 图 3. 8) .在 第 6 章 中 ， 讨论 伯 努 利和 泊 松 过 程 的 时 候 ， 这 种 天 
系 显得 特别 重要 . 

















H bs 


y 指数 分 布 函数 1 一 e-*? 





儿 何 分 布 函 数 1 一 (1 一 p)”, 上 中 p=1-e-%5 


图 3.8 几何 随机 变量 和 指数 随机 变量 的 分 布 函数 之 间 的 关系 . 图 中 离散 分 布 函数 为 
X5 的 分 布 函数 ， p=1-e ”的 几何 随机 变量 ， 当 5 一 0 时 , X5 的 分 布 
函数 趋 于 指数 分 布 函数 1 一 


2, 3 正 态 态 随机 变量 


二 实 随 机 变量 了 称 为 正 态 的 或 高 斯 的 , 若 它 的 概率 密度 函数 具有 下 列 形式 ( 见 图 
3.9 








其 中 A 和 rc 是 概率 密度 函数 的 两 个 参数 ， o 还 必须 是 正 数 . 可 以 证 明 , fxl7) 满足 下 面 
的 概率 密度 函数 的 归 一 化 条 件 ( 见 本 章 末 尾 的 习题 ) : 


1 Ee 

二 人 二 [2 
no / ez dr 一 1l 
V 27 JJ 一 

















一 1 0 1 2 3 人 灾 
正 态 PDF fy( 正 态 CDF 已 so 
图 3.9 正 态 分 布 的 概率 密度 函数 和 分 布 函数 ( k=1 和 ?=1 ). 由 图 中 可 以 看 出 ， 
概率 密度 函数 是 相对 于 均值 上 对 称 的 钟 形 曲线 . 当 x 离开 rk 的 时 候 ， 概 率 密度 函 
数 的 表达 式 中 的 项 er 很 快 地 下 降 .在 图 中 , 概率 密度 函数 在 区 间 [-1, 3] 之 
外 非常 接近 于 0 
正 态 随 机 变量 的 均值 和 方差 可 由 下 式 给 出 
E[X|]=k, varlX)= 02. 


了 的 概率 密度 函数 相对 于 kK 对称， 其 均值 只 能 是 A， 至 于 方差 , 依 定义 它 由 下 式 





1 DO 

1 ~ 1 nD (rr,2 /902 

varlX) = 一 一 (z 一 He dz. 
ZN /一 oa 


将 公式 中 的 积分 作 积分 变量 替换 y= 民 一 /5 以 及 分 部 积分 , 得 到 











上 面 最 后 的 等 式 是 由 于 


yl2dy = 1， 


这 个 公式 是 当 k=0 和 o?=1 的 时 候 的 正 态 随机 变量 的 概率 密度 函数 的 归 一 化 条 件 . 
正 态 随机 变量 具有 若干 重要 的 性 质 ， 下 面 的 性 质 尤 其 重要 , 并 且 将 在 4. 1 节 中 加 以 证 明 . 
线性 变换 之 下 随机 变量 的 正 态 性 保持 不 变 


设 了 了 是正 态 随机 变量 ， 其 均值 为 kh， 方差 为 o2. 若 a 隆 0 和 2 为 两 个 常数 ， 则 随 
机 变量 














Y=aX+b 
仍然 是 正 态 随机 变量 ， 其 均值 和 方差 由 下 式 给 出 : 
ElY] =apx+b, var(Y) = azo2. 
标准 正 态 随机 变量 


设 正 态 随 机 变量 上 的 期 望 为 0， 方 差 为 1 则 了 称 为 标准 正 态 随机 变量 . 以 $B 记 它 的 
CDF (参看 图 3. 10) : 





y 
By) = PlY <y)=P(Y <y)= , / et/2dt. 


通常 将 它 的 值 列 成 一 个 表 ( 见 表 3. 1), 这 是 计算 有 关 正 态 随机 变量 的 概率 的 重要 的 工具 . 


只 
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面积 = 和 (0.7) 







均值 =0 
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图 3. 10 标准 正 态 随 机 变量 的 概率 密度 函数 fy(y) = 
Bly). Bly) 的 数值 有 表 可 查 


表 3. 1 


标准 正 态 分 布 表 





yi 


”和 相应 的 分 布 函数 


0. 08 


0. 09 





0. 5319 


0. 5359 





0. 5714 


0. 6103 


0.5753 


0. 6141 





0. 6480 


0. 6844 


0.7190 


0. 6517 


0. 6879 


0. 7224 





0.7517 


0. 7823 


0. 8106 


0.7549 


0.7852 


0. 8133 





0. 8365 


0. 8599 


0. 8389 


0. 8621 





0. 8810 


0. 8997 


0.9162 


0. 8830 


0. 9015 


Wr 

















0. 9306 





0. 9319 












































oe 0. 01 0. 02 0. 03 0. 04 0. 05 0. 06 0. 07 0. 08 0. 09 
1.5 |0.9332 0. 9382 0.9418 |0.9429 |0.9441 
1.6 |0.9452 0. 9495 0. 9525 |0.9535 10.9545 
0. 9599 . 9608 0.9625 |0.9633 
1.8 |0.9641 .9671 .9693 |0.9699 |0.9706 
le SO OAS .9738 .9756 |0.9761 |0.9767 
2.0 |0.9772 .9793 .9808 |0.9812 |0.9817 
2.1 |0.9821 .9838 .9850 |0.9854 |0.9857 
0. 9878 .9881 0. 9887 |0.9890 
2.3 |0.9893 . 9904 .9911 |0.9913 |0.9916 
2.4 |0.9918 .9927 .9932 |0.9934 |0.9936 
0. 9946 . 9948 0.9951 |0.9952 
2.6 |0.9953 . 9959 .9962 |0.9963 |0.9964 
2.7 |0.9965 39969 .9972 |0.9973 |0.9974 
2.8 |0.9974 .9977 .9979 |0.9980 |0.9981 
259003998 . 9984 .9985 |0.9986 |0.9986 
0. 9989 . 9989 0. 9990 |0.9990 
3.1 |0.9990 10.9991 |0.9991 |0.9991 |0.9992 |0. 9992 S99928039992Q089993 刘 10%9998 




















3.2 |0.9993 |0.9993 5 0. 9994 ， 0. 9994 0. 9995 |0. 9995 





3.3 10.9995 |0.9995 : 0. 9996 . 0. 9996 0899960I0N9397 


3.4 |0.9997 |0.9997 |0.9997 |0.9997 |0.9997 |0.9997 10.9997 |0.9997 |0.9997 |0.9998 


过 由 的 数据 为 标准 正 态 分 布 函 歼 的 玛 首 信 (一 下 (Y 人 Y), 其 中 了 为 标准 正 态 随 机 变量 ，y 的 变化 范围 为 
三 Y 全 3.49， 例 如 要 查找 电 L1.11) 的 值 , 我们 只 需 在 1. 7 这 一 行 中 找 与 0. 01 对 应 那 一 列 的 数值 . 故 

) = 0.956 4 当 ww 可 利用 公式 (y=1 下 一切 计算 里 (yy) 的 什 
表 中 列 出 的 数据 为 Py) 的 值 以 > 只 ,利用 标准 正 态 随 机 变量 的 概率 密度 函数 的 对 称 
性 , 可 将 y<0 时 ly) 的 值 推导 时 出 襟 例如 


$B(—0.5) =P(Y <—0.5) = P(Y >0.5)=1—P(Y <0.5) 
=1— (0.5) =1—0.691 5= 0.308 5. 

































































































































































更 一 般 地 ， 我 们 有 
B(-y) 1 一 B(y) 对 一 切 y 成 立 . 
现在 设 了 是正 态 随机 变量 ， 期 望 为 /， 方 差 为 o2 将 标准 化 成 为 新 的 随机 变量 了 








由 于 地 是 玫 的 线性 函数 ， 所 以 了 也 是 正 态 随机 变量 ， 进 一 


ed lis =0, var(Y)= a 
o 02 
这 样 ， 了 就 是 一 个 标准 正 态 随机 变量 . 利用 这 个 事实 , 可 以 计算 关于 了 的 事件 的 概率 . 
0 了 表达 的 事件 , 再 利用 标准 正 态 分 布 表 ， 就 可 以 计算 关于 了 

A A 既 : < 


例 3.7( 利 用 正 态 分 布 函 数 表 ) ” 某 地 区 的 年 降雪 量 是 一 个 正 态 随机 变量 , 期 望 为 60 英 
寸 , 标准 差 o = 20 英寸 ， 本 年 降雪 量 至 少 为 80 英 寸 的 概率 有 多 大 ? 


记 了 为 年 降雪 量 ， 令 


E[Y] = =1 




















显然 了 是 标准 正 态 随机 变量 . 











i (a 和 2 a G 3 2 
1) = 1— ®(1). 
其 中 B 为 标准 正 态 分 布 函数 . 通过 查 表 得 
TD(1) = 0.841 3， 
故 
P(X > 80) =1— ®(1) = 0.158 7. 
将 上 面 的 方法 进行 总 结 ， 得 到 如 下 结果 . 
关于 正 态 随机 变量 的 CDF 的 计算 


利用 标准 正 态 分 布 表 计算 正 态 随机 变量 了 的 分 布 函数 (4 的 均值 为 4 方差 为 o， 
下 面 分 两 部 分 进行 : 


(a) 将 了 标准 化 ， 即 减 去 凡 再 除 以 o 得 到 标准 正 态 随 机 变量 上 
(b) 从 标准 正 态 分 布 表 碍 得 CDF 的 值 : 


ee 到 一 及 了 并 一 以 .TIT—1H tT™—1H 
P(X <7r)=P re 一 了 1 六 一 一 一 一 下 | 一 -一 一 | . 
o o oT o 


其 中 了 是 标准 正 态 随机 变量 . 


在 信号 处 理 和 通信 工程 中 通常 将 噪声 看 成 一 个 随机 变量 ， 它 加 在 信号 上 面 , 使 之 变形 . 
下 面 是 一 个 典型 的 例子 . 


例 3. 8( 信 号 检测 )” 记 一 个 传输 的 信号 为 5 5=1 或 -1， 由 于 通信 误差 , 在 接收 端 
得 到 的 是 加 有 噪声 的 信号 ， 噪 声 W 是 一 个 正 态 随机 变量 ， 均 值 为 4 二 0， 方差 为 0 
如 果 接收 端 得 到 的 混 有 噪声 的 信号 大 于 0, 则 判断 信号 $=1; 如 果 接收 端 得 到 的 混 有 
噪声 的 信号 小 于 0, 则 判断 信号 与 -1( 见 图 3. 11)， 问 这 种 判断 方法 的 误差 有 多 大 ? 











正 态 噪声 N. 
均值 为 0. 方差 0 


十 1 车 8 十 六 三 0 





已 
写 
1 或 一 1 一 1] 若 s 填 NN<0 






发 送 -1 时 的 





图 3. 11 例 3. 8 中 信号 检测 问题 的 图 示 . 图 中 阴影 部 分 的 面积 分 别 表示 传输 的 信号 
为 -1 和 +1 时 发 生 误 传 的 概率 


当 传输 方 传输 的 信号 为 5=-1， 而 噪声 D1， 此 时 5 忠信 120, 接收 方 误 判 为 +1， 当 
传输 方 传输 的 信号 为 1， 而 噪声 N < 一 1, 此 时 S++NN = 十 1<0， 接 收 方 误 判 为 
5=-1， 因 此 ， 当 -1 的 时 候 , 误 判 概率 为 




















Pn pi Nh .1—1H 
PUV > 了 =1 一 PN<SHU=1 一 了 | 一 芭 一 一 


[ea 
1 工 一 4 一 1 一 下 1 . 
oT Oo 


由 对 称 性 可 知 ， 若 发 送 的 信号 为 5-+1, 其 相应 的 误 判 概率 也 是 1 一 了 (1/9) 而 B(1/0) 
可 通过 查 表 得 到 ， 例 如 当 o =1 的 时 候 , $(1/9) = @(1) = 0.841 3， 判 断 误差 的 概率 为 
0. 158 7. 


正 态 随 机 变量 在 概率 论 中 起 着 十 分 重要 的 作用 . 其 原因 是 在 物理 、 工 程 和 统计 中 , 许多 
随机 量 是 由 许多 独立 效应 个 加 而 成 的 ， 而 数学 上 , 又 有 这 样 的 事实 : 大 量 的 独立 同 分 布 
的 随机 变量 (不 必 为 正 态 ) 的 和 的 分 布 近 似 地 服从 正 态 分 布 , 而 这 个 事实 与 各 个 和 项 的 
具体 的 分 布 是 无 关 的 . 这 个 事实 就 是 著名 的 中 心 极限 定理 . 我 们 将 在 第 5 章 讨 论 此 内 容 . 











3.4 多 个 随机 变量 的 联合 概率 密度 


现在 将 PDF 的 概念 推广 到 多 个 随机 变量 的 情况 ， 与 离散 的 情况 相似 , 我 们 将 引进 联合 、 
边缘 以 及 条 件 PDF 的 概念 ， 其 直观 解释 和 主要 性 质 与 离散 情况 完全 平行 . 


设 XY 和 了 为 在 同一 个 试验 中 的 两 个 随机 变量 . 若 它 们 存在 联合 概率 密度 函数 , 则 称 了 

和 7 是 联 合 连 续 的 . 那么 联合 概率 密度 函数 是 如 何 定义 的 呢 ? 非 负 的 二 元 函数 

称 为 了 和 了 的 联合 概率 密度 函数 , 如 对 任意 的 平面 上 的 二 元 集合 甩 下 式 
Y: 

















P((X,Y)€ B)= y | fer)aray 
Jlr,yEB:. 


上 式 的 积分 是 二 重 积分 ， 积 分 区 域 为 及 特别 地 , 若 B={(z,Wla <+<bec<y<d) 
则 上 式 变 成 





d b 
Pla<X<bc<Y<d)= / / fxrlz,y)drdy. 
Jc Ja 


进一步 ， 若 令 8B 为 全 部 二 维 平面 ， 就 可 以 得 到 密度 函数 的 归 一 化 条 件 


/ / fxyvlz,ydrdy= 1. 


为 解释 联合 概率 密度 函数 的 意义 ， 取 5 为 一 个 充分 小 的 正 数 , 考虑 人 了) 落 入 一 个 小 
方块 内 的 概率 
Pla<X<a+dc<Y<c+i+o) = [ 下 RN 
fxyla,c) .52 2 
我 们 可 以 将 fxX,Yl4a,5) 看 成 (X,Y 了) 落 入 (ac) 附近 单位 面积 中 的 概率 . 
联合 概率 密度 函数 包含 了 所 有 关于 (六, 了) 的 取 值 概率 的 信息 , 包括 它们 之 间 的 相互 依 
赖 的 信息 ， 利 用 它 , 我 们 可 以 计算 任何 由 (X,Y) 所 刻画 的 事件 的 概率 ， 作 为 特殊 情况 ， 


我 们 可 以 计算 单独 一 个 随机 变量 ( 了 或 了) 所 刻画 的 事件 的 概率 ， 例 如 , 令 4 为 一 个 
实数 的 集合 ， 考 虑 事件 {X& 4 我们 有 




















PIX €A}=P(lX €E AY EL 一 coco 有 j= / fxylz, ydydz. 
JAJ—o0 
与 下 面 的 公式 比较 


PIX € A)= / fxlz)dz, 
J4 


就 可 以 知道 ,了 的 边缘 概率 密度 函数 由 下 式 给 出 
fx(l7) = fxYrlr, ydy. 
类 似 地 可 得 
fyly) = 局 fxYrlr, ydz. 
例 3. 9( 二 维 均匀 概率 密度 函数 ) ”罗密欧 和 朱丽叶 约定 在 某 时 某 地 约会 ， 但 是 每 个 人 
都 会 延迟 , 延迟 时 间 在 0 至 1 小 时 之 间 (〈 见 1. 2 节 的 例子 ). 令 了 和 了 分 别 为 罗密欧 和 朱 丽 


叶 述 到 的 时 间 ， 假 定 他 们 迟到 的 时 间 (z, 切 在 单位 正方 形 中 是 等 可 能 的 . 这 样 (X,Y) 
的 联合 概率 密度 函数 就 很 自然 地 定 为 





到， 海草 区 1 
0， 其 他 ， 


其 中 c 是 一 个 常数 ， 由 于 概率 密度 函数 满足 归 一 化 条 件 


30 30 1 1 
/ / fxylz,ydrdy = / / cdrdy = |， 
EE Jo J0 


GC 二,]. 


这 是 一 个 联合 均匀 概率 密度 函数 的 例子 ， 更 一 般 地 , 令 5 是 二 维 平面 上 的 一 个 子 集 .在 
子 集 9 上 的 联合 均匀 概率 密度 函数 是 由 下 式 定义 的 : 


证 





由 此 可 以 确定 








1 
Tg 火 ， SS Db, 
5 的 面积 ” ( 纪 
0， 其 他 . 
对 35 的 任何 子 集 4，(X,Y) 落 入 区 域 4 的 概率 为 
i | 
PCO0Y) es= | | tx 二 zy = 5 面相 人 f aa 
(( ) ) {2,Yy)EA fx 3 ~ S$ 的 面积 (2,Y)EA | 


_ 的 面积 
5 的 面积 


fry {re = 


例 3.10 设 和 了 是 在 平面 中 集合 9 上 的 均匀 随机 变量 , 即 它们 的 联合 概率 密度 函 
数 在 集合 S$ 上 为 常数 c， 在 集合 5 之 外 为 0. 而 5 的 形状 如 图 3. 12 所 示 ， 现 在 希望 求 出 
概率 密度 函数 中 的 常数 c 以 及 了 和 了 的 边缘 概率 密度 函数 . 








4 





图 3.12 例 3. 10 中 的 联合 概率 密度 函数 和 相应 的 边缘 概率 密度 函数 . 


由 图 所 示 ，5S 的 面积 为 4， 这 样 JXY(7, 切 二 c= 1/4,(z, 胡 & 5. 现在 求 了 的 边缘 概率 密 
度 函 数 fx(z)， 我 们 只 需 固定 x 的 值 , 将 联合 概率 密度 函数 对 y 进行 积分 ， 就 可 以 得 
到 jxtz) 的 值 . 最 后 的 结果 都 列 于 图 3. 12 中 .fy 的 计算 是 类 似 的 . 


例 3. 11 ( 布 丰 的 抛 针 试验 ) 3 这 是 一 个 著名 的 例子 , 几何 概率 由 此 发 源 ， 所 讨论 的 问 
题 是 对 随机 放置 的 对 象 的 几何 性 质 的 分 析 . 
































3 这 个 问题 为 法 国 自然 学 家 布 丰 于 1777 年 提出 并 解决 ， 此 后 , 出 现 许多 类 似 的 问题 , 包括 拉 普 拉 斯 (1812 年 ) 提出 的 向 
共有 网 格 的 平面 上 丢 针 问 题 ( 见 本 章 末 尾 的 习题 )， 这 个 问题 引起 了 科学 家 的 兴趣 , 并 且 作 为 以 试验 产生 元 的 主要 
手段 ， 据 说， 在 美国 内 战 的 时 候 , 有 一 个 名 为 福 殉 斯 的 陆军 上 尉 在 养伤 的 时 候 用 针 进 行 抛掷 试验 ， 以 获得 的 
值 ， 在 互联 网 上 也 有 人 利用 布 丰 的 想法 , 他 们 用 几 个 图 形 模拟 程序 计算 元 的 值 






























































































































































在 平面 上 画 了 若干 条 平行 线 ， 相 互 之 间 的 距离 为 a ( 见 图 3. 13) . 现在 往 平面 上 随机 地 
抛 据 一 根 针 ， 针 的 长 度 为 7 . 问 针 与 直线 相交 的 概率 有 多 大 ? 


我 们 假定 【< d， 这 样 针 不 会 同时 与 两 条 直线 同时 相交 . 令 了 为 针 的 中 点 离 最 近 的 那 一 
条 直线 的 垂直 距离 , 6 表示 针 间 的 夹 角 (加 3 13) . 我 们 假定 (六 ,9) 的 
0 : 度 函 数 为 矩形 集合 {lz:g0<z<d20<9<r/2} 上 的 联合 均匀 概率 密度 




















4/(xd)， 夺 x € [0,d/2| 有 9 € [0,7/2]， 
0， 其 他 . 


由 图 3. 13 可 以 看 出 ， 针 与 平行 直线 相交 的 充 要 条 件 为 


I 
六 < 55inO, 


j= 








其 相应 的 概率 为 


PLX < (1/2)sinO)= a | fxele,0)dra 
I<(1/2) sing 


Ti2 (2/2) sing 
= a dzdB 
nd 





区 
一 一 Sin Gdg 
7 nd. 
21 ™/2 
= 一 (一 cosD) 
nd 
21 
nd 





我 们 也 可 利用 试验 来 估计 和 针 与 平行 直线 相交 的 概率 . 其 方法 是 重复 大 量 的 抛掷 针 的 试 
验 , 将 针 与 平行 直线 相交 的 频率 作为 这 个 概率 的 估计 值 . 由 于 这 个 概率 值 等 于 2 (7™d), 
这 种 方法 也 同时 提供 了 7 的 经 验 估 值 的 方法 . 





图 3. 13 布 丰 的 抛 针 试验 ， 设 针 的 中 点 与 最 靠近 的 平行 线 的 距离 为 x 针 的 中 点 与 
针 所 在 直线 与 平行 线 的 交点 之 间 的 距离 为 z/ 各 9. 显然 针 与 平行 线 相交 的 充 要 条 件 为 


Tl/sing < < 1 地 


3.4.1 联合 分 布 函数 
设 和 了 /是 在 同一 个 试验 中 的 两 个 随机 变量 . 我 们 定义 它们 的 联合 分 布 函数 为 
Fxylr,y)= P(X < 7,Y < oy). 


与 一 个 变量 的 分 布 函数 一 样 ， 它 既 适 用 于 离散 随机 变量 , 也 适用 于 连续 随机 变量 .特别 
地 , 若 闵 ,Y 具有 联合 概率 密度 函数 (简称 联合 PDF) jxXY， 则 








I y 
Fxy(7T,y)=P(X <Z,Y <1Yy)= , / fxyls,t)dtds. 
J 一 DO 一 Co 





反 过 来 ， 联 合 概率 密度 函数 也 可 从 联合 分 布 函数 通过 求 微 商 得 到 : 





Fxy, 
(X,Y). 
OroOvy 


例 3.12 设 了 和 了 为 单位 正方 形 上 的 联合 均匀 随机 变量 . 其 联合 分 布 函数 为 





Friz, 功 一 


这 样 ， 对 于 单位 正方 形 中 的 (z, 范 


PFxY, Pry, ee 
ey TY Np ee yy pp 
OrTOYy "Y, Boy y) fx.Y lI,y) 








3. 4.2 期 望 





设 XY 和 了 为 联合 连续 随机 变量 ，g 是 一 个 函数 , 则 4 = glX,Y) 也 是 一 个 随机 变量 . 


在 4. 1 节 中 我 们 将 讨论 2 的 概率 密度 函数 的 计算 方法 (如 果 2 有 概率 密度 函数 ). 





我 们 必须 指出 , 计算 期 望 的 期 望 规则 仍 然 有 效 ， 因 此 


Elg(X,Y) ef A glr,y)fxyvlr, ydrdy. 





作为 一 种 重要 的 特殊 情况 ， 对 于 常数 a，b，c， 我 们 有 
ElaX +bY +¢ = aE[X] + bE[Y] + 


3.4.3 多 于 两 个 随机 变量 的 情况 


三 个 随机 变量 不 人 2 的 联合 概率 密度 函数 的 定义 与 两 个 随机 变量 的 情况 是 


的 . 例如 ， 满 足下 列 条 件 


P((X,Y,2Z)€B)= / / (x,y, 2)drdydz 
(zy,s)EB X,Y,Z (B 为 任意 三 元 集合 ) 


现在 


完全 相似 


的 非 负 函数 Jrzt 3 就 是 不 人 2 的 联合 概率 密度 函数 . 下 列 类 型 的 关系 都 是 成 


立 的 : 


txv(ry = fxy.z(T,Yy, 2)dz, 


fx{z) = / / fxyzlr,y,z)dydz. 


计算 随机 变量 9(X, 2) 的 期 望 的 规则 是 





Elg(X,Y,2)] = /- 三 /- dz,zy 2)fxyz(r,y,2)drdydz, 


若 8 是 一 个 线性 函数 aX +bY 二 CZ， 则 


ElaX + bY + c2] = aE[X] + bE[Y] + cE[Z]. 


大 卡 及 的 随机 变量 的 个 数 多 于 三 个 ， 相应 的 改变 是 明显 的 .例如 , 对 于 随机 变量 


Xi X2,… , Xn， 我 们 有 


Elal Xi1 十 asX2 + + anXn| = AE[Xi| + a2E[lXo]| 十 … 十 anE[Xnl- 


多 元 连续 随机 变量 性 质 的 小 结 
令 和 了 为 联合 连续 随机 变量 ， 其 联合 概率 密度 函数 为 jxY. 
。 利用 联合 概率 密度 函数 可 以 进行 概率 计算 : 


Pl(X,Y)€B)= / | fev waray 
. (zr,y)EB: 


了 和 了 的 边缘 概率 密度 函数 可 利用 联合 概率 密度 函数 进行 计算 得 到 : 


fxlr) = / fixylr, Wdy, fyly) -| fixy lr, ydz. 


联合 分 布 函数 由 公式 fx,Yt7,Y) = 二 P(X SSZ < Y) 定义 , 并且， 在 联合 概率 密 
度 函 数 的 连续 点 上 ， 下 面 的 公式 成 立 : 











fxYrl7z,y) = CN 
Orovy 
. 工 和 了 的 函数 9(X,Y) 定义 了 一 个 新 的 随机 变量 ， 并 且 


Elg(X,Y)|] = 人 / g(r,y)fxylr, ydrdy. 


若 g 是 一 个 线性 函数 aX +byY 十 c， 则 


ElaX +bY +c] = aE[X|] + VEIY] +c. 


。 上面 的 结论 能 够 很 自然 地 推广 到 多 于 两 个 随机 变量 的 情况 . 


3.5 条 件 


与 离散 随机 变量 的 情况 相似 , 可 以 以 一 个 随机 事件 或 男 一 个 随机 变量 为 条 件 ， 讨 论 随 机 
变量 的 特性 , 并 在 此 基础 上 建立 条 件 概率 密度 函数 和 条 件 期 望 的 概念 . 各 种 定义 和 公式 
都 与 离散 的 情况 平行 ， 且 其 意义 的 解释 也 都 是 类 似 的 . 在 连续 情况 下 ， 还 会 遇 到 以 零 概 
率 事件 { = 中 为 条 件 的 情况 , 这 在 离散 情况 下 是 无 法 处 理 的 . 


3. 5. 1 以 事件 为 条 件 的 随机 变量 


一 个 连续 随机 变量 了 在 给 定 事件 4(P( 世 > 0) 发 生 的 条 件 下 的 条 件 概率 密度 函数 
JxHtz) 是 这 样 定义 的 : 它 是 一 个 非 负 函 数 , 并 且 对 一 切 直线 上 的 集合 甩 满足 





P(X E 了 4) = 让 fxalz)dz. 
JB 


特别 地 ， 当 8B 取 成 全 部 实数 集合 的 时 候 ， 得 到 归 一 化 等 式 


/ fxalT)}dzr = 1, 


这 说 明 fxl4 是 一 个 合格 的 概率 密度 函数 . 
当 我 们 将 事件 4 取 成 { < 4 的 形式 以 后 (P(X e J0 > 0), 由 条件 概率 的 定义 得 到 


D(XYEAXE | De -|[ 工 lt 
p(X EBXEA -RESXEB) Jnafx(s)dr 
P(X € A) P(X €A) 


将 这 个 式 子 与 前 面 的 关于 条 件 概率 密度 函数 的 定义 比较 ， 可 知 


fx (7) a 
fx|aA(7) = P(XeD oe 


0， 其 他 . 


与 离散 情况 相同 ， 条 件 概 率 密 度 函 数 在 条 件 集合 外 边 的 取 值 为 0. 在 条 件 集合 内 部 ， 条 
件 概率 密度 函数 与 无 条 件 概率 密度 函数 具有 相同 的 形状 ， 唯 一 的 差别 是 条 件 概 率 密度 
函数 还 有 一 个 归 一 化 因子 HP € 和， 归 一 化 因子 1/P(X € 4 使 得 fxIalz) 的 积分 
为 1, 从 而 jxIal?) 成 为 一 个 合格 的 概率 密度 函数 ( 见 图 3. 14)， 这 样 , 条 件 概率 密度 函 
数 与 通常 的 概率 密度 函数 一 样 ， 不 过 它 将 已 经 发 生 的 事件 {六 < 4} 作为 随机 试验 的 全 


空间 . 


例 3. 13 (指数 随机 变量 的 无 记忆 性 ) 一 个 灯泡 的 使 用 寿命 7 是 一 个 指数 随机 变量 ， 
其 参数 为 和 阿 丽 将 灯 打 开 后 离开 房间 , 在 外 面 采 了 一 段 时 间 以 后 (时 间 长 度 为 t )， 





























她 回 到 房间 ， 灯 还 是 亮 着 . 这 相当 于 事件 4= {> 村 发 生 了 ， 记 了 为 灯泡 的 剩余 寿 
命 , 问 了 的 条 件 分 布 函数 是 什么 ? 实际 上 了 ee 4 发 生 的 条 件 下 的 寿命 , 我 们 有 


P(A 于) = PLT 加 二 交工 芭 草 
和 
IT 
有 CE Sm) 
“I 
e 一 入 (t 十 Z) 


二 得 


此 处 我 们 利用 了 3. 2 节 中 得 到 的 指数 随机 变量 的 分 布 函数 的 公式 . 





a >»|0 
A 


图 3. 14 无 条 件 概 率 密度 函数 fx 和 条 件 概 率 密度 函数 jxXl{xe, 其 中 4 是 区 间 
ms 在 集合 4 内 , /Xltxe4)} 的 形状 与 fx(7) 保持 一 致 ,除了 在 y 轴 方 向 有 一 个 


灯泡 的 剩余 寿命 X 的 分 布 函数 是 指数 分 布 ， 其 参数 也 是 和 , 这 和 灯泡 已 经 之 了 多 少 小 
时 是 无 关 的 .指数 分 布 的 这 个 性 质 就 是 指数 分 布 的 无 记忆 性 . 一般 地 , 若 将 完成 某 个 任 














务 所 需要 的 时 间 的 分 布 定 为 指数 分 布 , 那么 只 要 这 个 任务 没有 完成 , 要 完成 这 个 任务 所 
需要 的 剩余 时 间 的 分 布 仍然 是 指数 分 布 , 并 且 其 参数 也 是 不 变化 的 . 

当 涉 及 多 个 随机 变量 的 时 候 ， 相 应 地 有 联合 条 件 概率 密度 函数 ， 例如, 设 了 和 了 是 联 
合 连 续 随机 变量 ， 其 联合 概率 密度 函数 为 /XY. 设 作为 条 件 的 正 概率 事件 为 

C={4(X, 让 € 4), 了 和 了 的 联合 条 件 概率 密度 函数 为 


fx y (X,Y) 

eg 者 》 € A, 
fx,Ylc(7x,Yy) = P(C) HM 

0， 其 他 . 


此 时 了 的 相对 于 条 件 C 的 条 件 概率 密度 函数 可 从 联合 条 件 概率 密度 函数 得 到 





jxictz) -| fxyiclT, ydy. 





这 两 个 公式 说 明 ， 当 刻画 条 件 的 事件 不 具有 形式 X € 4, 而 是 通过 多 元 随机 变量 表达 的 
时 候 , 了 的 条 件 概率 密度 函数 可 通过 联合 条 件 概率 密度 函数 得 到 . 


3 设 所 ,… ,4in 是 样本 空间 的 一 个 
分 天 |， 见 








fx(z) = 》 P(4i)7xai(z) 
这 1 
为 验证 这 个 公式 ， 我 们 只 需 利用 第 1 章 的 全 概率 定理 ， 得 到 


P(X < z) = > P(Ai)P(X < 7z|Ai). 
f=1 


将 这 个 公式 写成 积分 形式 
/ Fodt= PLD / Fa 人 dt 
二 人 t=1 “0 
再 在 两 边 对 x 求 导数 ， 就 得 到 所 需 的 结果 . 


以 事件 为 条 件 的 条 件 概 率 密度 函数 


。 对 于 给 定 的 事件 4(P(L) > 0), 连续 随机 变量 了 的 条 件 概率 密度 函数 fxl4 是 
满足 下 列 条 件 的 函数 : 


P(X € BIA) = /Pandr 
JB 


其 中 是 实数 轴 上 的 任意 集合 . 
设 4 是 一 个 实数 集合 ， 满 足 条 件 PIX € 4)> 0， 则 
fx(z) 
P(X € Ay’ 

0， 


fx|{xeA}(7) = 


设 入 ,2,… ,4 为 互 不 相 容 的 m 个 事件 ， 对 每 个 六 P(4) > 0， 并 且 这 些 
事件 形成 样本 空间 的 一 个 分 割 ， 则 


fx(z) = 》 P(4i)Jxlai(z) 
这 1 


(全 概率 定理 的 一 种 变形 ). 
下 面 的 例子 用 全 概率 公式 来 计算 概率 密度 函数 . 
例 3. 14 你 家 离 城 铁 车 站 比较 近 .， 已 知 从 早晨 6:00 开 始 , 每 一 刻 钟 有 一 列车 进入 城 铁 
车 站 . 而 你 步行 到 达 城 铁 车 站 的 时 刻 为 7:10 到 7:30 之 间 ， 并 且 到 达 时 刻 是 [7:10, 7:30] 
上 均匀 分 布 的 随机 变量 求 你 在 车 站 上 等 车 时 间 的 概率 密度 函数 . 


记 了 为 你 到 达 车 站 的 时 刻 ， 了 了 的 分 布 为 [7:10, 7:30] 上 均匀 随机 变量 ( 见 图 3. 15a). 记 
7 为 等 待 时 间 . 我 们 利用 全 概率 公式 计算 了 的 概率 密度 函数 方 ， 记 

A={7:10 < 久 <7:15} = { 你 赶 上 7:15 的 车 }， 

万 三 人 15 莹 瑟 受 730 =T 你 赶 上 730 的 审 上 


事件 4 发 生 的 条 件 下 , 你 到 达 车 站 的 时 刻 了 是 在 [7:10,7:15] 上 均匀 随机 变量 . 这 样 你 
等 待 时 间 了 是 在 0 分 到 5 分 之 间 的 均匀 随机 变量 ( 见 图 3. 15b). 类 似 地 ， 在 8 的 条 件 之 
下 ,， 了 是 在 0 分 到 15 分 之 间 的 均匀 随机 变量 ( 见 图 3. 15c). 利用 全 概率 定理 的 变形 ,了 的 





fy(y) = P(A)fY aly) + P(B)fY IB(Y), 


( 见 图 3. 15d)， 这 样 


fx(2) 六 pa ( 切 


1/20 1: 





f a al y) 


1/15 





15 y 





(c) 
图 3.15 例 3. 14 中 的 概率 密度 函数 jx,frla,frs 和 ry 


3.5.2 一 个 随机 变量 对 另 一 个 随机 变量 的 条 件 

设 了 和 了 为 联合 连续 随机 变量 ， 其 联合 概率 密度 函数 为 fxYlZ, 了 .对 任何 满足 

frY( 四 >0 的 yy 值 ， 在 给 定 Y=y 的 情况 下 ， 了 的 条 件 概率 密度 函数 由 下 式 定 义 : 
pe 了 

这 个 定义 与 离散 情况 下 的 公式 PXIY(ZIW) = Perltz WPrtJ 完全 相似 . 

在 考虑 条 件 概 率 密度 函数 的 时 候 ， 最 好 将 7 值 固定 下 来 ， 并 将 fxIYtzly) 看 成 X 的 函 

数 ， 作 为 x 的 函数 , 条 件 概率 密度 函数 fxlYl7Iy) 与 联合 概率 密度 函数 Perltz, 妇 具有 

相同 的 形状 , 这 是 因为 它们 仅 相 差 一 个 与 x 无 关 的 常数 因子 (四 ( 见 图 3. 16) . 另外 ， 





fy(y) = / fxyvlz, dr 
暗示 了 归 一 化 性 质 
. fxrvlzly)dr = 1 


所 以 ， 对 任何 固定 的 了 值 , /xIY(7ly) 是 一 个 合格 的 概率 密度 函数 . 





图 3. 16 ”条件 概率 密度 函数 /xlYlzly) 的 直观 解释 . 设 了 和 了 的 联合 概率 密度 函数 
是 在 9 上 的 均匀 概率 密度 函数 . 对 固定 的 了 值 ， 我 们 将 联合 概率 密度 函数 沿 了 =Y 
这 一 片 进行 归 一 化 使 得 它 的 积分 等 于 1 

例 3. 15( 圆 上 的 均匀 概率 密度 函数 ) ”本 在 玩 一 个 掷 飞 标 游戏 , 靶 是 一 个 半径 为 z 的 
圆 板 ( 见 图 3. 17)， 我们 假定 飞 标 总 是 掷 向 目标 , 而 每 一 个 落 点 (7,Y) 是 等 可 能 的 . 所 以 
作为 落 点 的 (六, 站) 的 联合 概率 密度 函数 是 贺 上 的 均匀 概率 密度 函数 . 根据 例 3. 9, 了 和 


六 的 联合 概率 密度 函数 为 

















] + yw 1 P24 三 员 
fxy(z,y) = 两 的 面积 ， 若 (z,y) 在 圆 内 ， 





图 3.17 例 3.15 中 的 圆 形 识 


现在 计算 条 件 概率 密度 函数 fXIY(7IW). 为 此 先 计算 边缘 概率 密度 函数 广 ( 攻 ， 对 于 
>7，fr(y) =0. 对 于 | 四 < 7， 通过 下 列 计算 得 到 fyY(W) 的 值 : 


a 人 


dz 
Tr fr2+p <r2 
1 Vr2—y2 
a Ls 
2 
三 -一 /7r2 一 < 
i ey 


注意 ， 了 的 边缘 概率 密度 函数 不 是 均匀 的 . 
了 的 条 件 概 率 密 度 函数 为 


1 
fxYl(r,y) Ar2 1 
fxir(z1y) = 一 一 一 一 -一 = ， 
fy(y) 万 2V7r2 一 妨 
下 oe 


2 
r2 
这 样 ， 对 固定 的 条 件 概率 密度 函数 jxly 是 均匀 的 概率 密度 函数 . 


现在 来 解释 条 件 概率 密度 函数 的 概率 意义 . 令 5 和 2 是 两 个 小 的 正 数 , 考虑 条 件 
B={y<Y<y+5o} 我 们 有 


T+ < r2. 





P(z<X<r+h 且 y 入 了 芯 2 十 和 2，) 
PwygYgy+6,) | 
入 fx,y (x,Y)6162 
fy (y)62 
= fxly(z|Wo1. 
换言之 , fxlrtzly)61 就 是 在 给 定 Y》& ly,Y + 52] 的 条 件 之 下 ， 了 属于 小 的 区 间 区 ,7 二 人 1] 


的 概率 . 由 于 fxlY(zly)51 并 不 依赖 于 52, 我 们 可 以 将 fxIY(zIW)5L 认为 是 当 下 一 0 的 极 
限 情 况 , 即 


P(r< Xsrtoly YY y+6)= 


P(r <X<r+talY = fr(zy) (61 较 小 )， 
更 一 般 地 ， 
P(X € AY =Y)= | teva 


在 第 1 章 中 ， 给 定 零 概率 事件 Y =y， 相 应 的 条 件 概 率 是 没有 定义 的 .但 是 , 上 述 公式 
给 出 了 以 零 概率 事件 为 条 件 的 条 件 概率 的 一 个 自然 的 定义 ， 此 外 , 条 件 概率 密度 函数 
fxlY(zI 四 (作为 x 的 函数 ) 可 以 解释 为 了 的 在 给 定 Y=y 之 下 的 概率 律 . 


正如 离散 情况 一 样 , 我 们 可 以 利用 条 件 概率 密度 函数 JxIr 和 边缘 概率 密度 函数 fy 计 
算 相 应 的 联合 概率 密度 函数 jxlY. 事实 上 ， 为 了 刻画 一 个 概率 律 ， 我 们 并 不 需要 直接 
列 出 联合 概率 密度 函数 Jxly， 通 常 只 需 先 给 出 了 的 概率 律 有 i, 然后 给 出 已 知 Y= 
的 情况 下 了 的 (条 件 ) 概 率 密度 函数 Fritz 

例 3. 16 一 辆 汽车 正在 通过 交通 测速 雷达 ， 汽 车 的 速度 是 一 个 随机 变量 通常 假定 
了 是 一 个 指数 随机 变量 ， 其 平均 值 为 每 小 时 50 英 里 . 而 测速 雷达 的 测量 值 三 是 带 有 误 
差 的 ， 测量 误差 为 正 态 随 机 变量 , 其 均值 为 0， 标 准 差 为 车 速 的 1/10. 了 和 了 的 联合 概 
率 密度 函数 是 什么 ? 


根据 题 意 ， 的 边缘 概率 密度 函数 为 
全 7 有 2 
0， 其 他 . 


而 对 于 固定 的 X=z， 测量 值 了 的 条 件 概 率 密度 函数 为 正 态 概率 密度 函数 , 其 期 望 为 
x 方差 为 z2/100， 这 样 





= 








el = 


1 一 (3 一 z)2 /(2r? /100) 


PTxt|z) 一 V(r/10) 
从 而 ， 了 和 了 的 联合 概率 密度 函数 为 


fxy(z,y) = fx(z)fylx (yz?) 


Ls/s0_ 10 -soly-w)*/s* 车 >0,ye (—00, 00), 
50 277 


0， 其 他 . 
以 另 一 个 随机 变量 为 条 件 的 条 件 概率 密度 函数 
设 和 了 为 联合 连续 随机 变量 , 其 联合 概率 密度 函数 为 fx 


。 了 和 了 的 联合 、 边 缘 和 条 件 概 率 密度 冰 数 是 相互 关联 的 . 它们 的 关系 用 下 面 
的 公式 表示 


fxr(r,y) = fyly)fxr(rly), 
| frly)fxr(rzly)dy. 








条 件 概率 密度 函数 fxXIYtzly) 只 在 集合 {ylfy(y) > 0} 上 有 定义 . 
。 关 于 条 件 概 率 ， 我 们 有 


P(X € AlY =) = | fever 
J 


对 于 多 个 随机 变量 的 情况 ， 其 推广 是 很 自然 的 . 例如 可 定义 如 下 的 条 件 概率 密度 函数 : 


Jxyrz(z;y 2) 





-yz(zT, yz) = a Oe 
fx,rlz(z,Y fz(z) 对 一 切 fz(2) > 0 成 立 ， 
fxrz(T|y, 2) = fxvz(r, yy, 7) 二 
fz(y,2) 对 一 切 友 zly,?)>0 成 立 . 





对 于 概率 密度 函数 ， 相 应 的 乘法 规则 也 是 成 立 的 : 
fxY,2(T,Yy,2) = fxly,z(Tly, 2)fyz(y|2)fz(2). 


本 节 中 的 其 他 公式 ， 也 可 推广 到 多 个 变量 的 情况 . 


3.5.3 条 件 期 望 


对 于 连续 随机 变量 给 定 事件 4 的 条 件 期 望 ELX| 直 的 定义 与 无 条 件 期 望 的 定义 相 
似 , 不 过 现在 我 们 利用 条 件 概率 密度 函数 jxla 来 定义 ， 类 似 地 , 条 件 期 望 PIX|Y = 沁 
是 通过 条 件 概率 密度 函数 jxlY 进行 定义 的 . 关于 期 望 的 各 种 性 质 可 以 原封 不 动 地 搬 到 
条 件 期 望 中 来 ， 要 注意 的 是 , 此 处 所 有 的 公式 与 离散 情况 的 公式 是 完全 相似 的 , 只 是 将 
离散 情况 下 的 求 和 号 变 成 积分 号 ， 分 布 列 改 成 概率 密度 函数 . 








条 件 期 望 性 质 的 小 结 
记 和 了 为 联合 连续 随机 变量 ，4 是 满足 Pl4) > 0 的 事件 . 
。 了 在 给 定 事 件 4 之 下 的 条 件 期 望 由 下 式 定 义 


EIX|A] = / "a 
给 定 Y=y 之 下 的 条 件 期 望 由 下 式 定义 
E[X|IY = = /- rfxylT|y)dz. 


期 望 规则 仍然 有 效 : 


Elg(X)|A] = / g(7)fxlalT)dz, 
J—o0 


DO 


Elg(X)|lY = -| glzT)fxlrv lzly)dr. 


全 期 望 定理 ， 设 汪 ,4o,… ,4 为 互 不 相 容 的 n 个 事件 ， 对 每 个 7 ， 
P(4;) > 0， 并 且 这 些 事件 形成 样本 空间 的 一 个 分 割 ， 则 


E[X| = P(Ai)ELX|A;]. 
这 1 
相似 地 ， 


EX]= 人 ELXlY = 相关)dy 





涉及 几 个 随机 变量 的 函数 的 情况 ， 具 有 完全 相似 的 结果 .例如 


Elg(X,Y)|Y = = fs y)fxy (zly)dz, 


Elg(X,Y)] = [les YY = yfy(y)dy. 











关于 期 望 规则 的 证 明 与 无 条 件 期 望 规则 的 证 明 完 全 相同 , 在 此 不 予 重复 论证 ， 现 在 我 们 
验证 全 期 望 定理 ， 对 于 第 一 个 公式 , 利用 全 概率 定理 


fx(z) = 》P(4i)fxlai(z)， 


i 一 1 


在 两 边 乘 % 然后 在 -ce, co) 上 积分 , 便 得 到 全 期 望 定理 的 第 一 个 公式 . 


关于 全 期 望 定理 的 第 二 个 公式 ， 可 从 下 面 一 系列 等 式 得 到 : 


人 E[X|Y = yfy(y)dy = 三 bg en frlndy 
Sy 
一 三 人 ZFxrz,zjdzrdy 
= 站 I 广 fxv(e ey dz 
站 二 


= EIX]. 
全 期 望 定理 可 用 于 随机 变量 的 期 望 、 方 差 和 各 阶 矩 的 计算 . 


17( 阶 梯形 概率 密度 函数 的 均值 和 方差 ) 假定 了 的 概率 密度 函数 为 下 列 的 阶梯 








TB， 洲 下 过 量 国 证 
jw) 一， 和 1 谤 放 克 多 
0， 其他， 


( 见 图 3. 18) .现在 记 
41 = {X 落 入 第 一 个 区 间 [0, 1]}， 


hs = {X 落 入 第 二 个 区 间 (1,2]}. 
利用 了 趟 的 概率 密度 函数 ， 得 到 


J 


1 
、 2 1 pe 
P(A1) = | fx(z)dr = =， P(42) = / fx(z)dz = 
Jo 3 /1 


W|I 





1 2 几 
图 3.18 例 3.17 中 的 阶梯 形 概率 密度 函数 
此 外 , 我 们 还 可 以 利用 了 的 条 件 概 率 密度 函数 计算 了 在 41 和 Az 之 条 件 下 的 均值 和 





二 阶 矩 , 由 于 产 a 和 六 as 都 是 均匀 概率 密度 函数 ， 从 例 3. 4 的 结论 可 知 , 区 间 [0 冲 
上 具有 均匀 分 布 的 随机 变量 的 均值 是 (e+ 昌 /2, 一 阶 矩 是 (二 中 十 的 )/3， 于 是 





- 1 _ 3 
EIX|A1] = 5, EIX|4s] = 5, 
a 1 eT 
EIX?|A1] = 3, EX2|4a] = 3 
现在 利用 全 期 望 定 理 ， 得 到 
ElX P(AI)EIXIA P(A2)E[IX|A SR 
[X] = P(4D)EIXl4]+P(4z)EIXl4al]= 3 了 + 了 了 = 
-2 -2 ,9 i 7 
EI[X “| = PlAI )E[X "|Ai] “人 PL42)E[X .42] 一 3 3 7 3 3 二 i 
地 的 方差 为 
站 na 15 49 11 
rar(X)=EX’ | 一 全 | 大 = 三 一 一 一 = 一. 
We AB) 9 36 36 


本 例 的 方法 可 以 推广 到 多 于 两 段 的 阶梯 形 概 率 密 度 函 数 的 期 望 和 方差 的 计算 . 


3.5.4 独立 性 


与 离散 的 情况 完全 相似 , 若 两 个 连续 随机 变量 了 和 了 的 联合 概率 密度 函数 是 它们 各 上 自 
的 边缘 概率 密度 函数 的 乘积 , 即 


fxY(T,W 二 fx(T)fyYly) 对 一 切 x 和 y 成 立 ， 








则 称 下 和 三 相互 独立 ， 比 较 公 式 Prt 切 = rz 切 PO 可 知 ， 独 立 性 条 件 与 下 
式 是 等 价 的 : 


fxirfz 罗 = fx(z) 对 一 切 x 和 满足 方 妇 >0 的 成立 . 
基于 对 称 性 ， 下 列 条 件 也 与 独立 性 条 件 等 价 : 
jx 四 一 记功 对 一 切 y 和 满足 fx(z) >0 的 x 成 立 . 
自然 地 , 两 个 随机 变量 的 相互 独立 性 的 概念 可 以 推广 到 多 个 随机 变量 的 相互 独立 性 . 例 


人 不 及 2 为 三 个 联合 连续 随机 变量 . 若 它 们 的 联合 概率 密度 函数 具有 下 面 的 表达 
后 














fxyz(z,y,2) = fx(T)r( 四 fz(z) 对 一 切 x、 示 z 成 立 ， 
则 称 它们 是 相互 独立 的 . 


例 3. 18 (独立 的 正 态 随 机 变量 ) 设 了 和 了 是 相互 独立 的 正 态 随 机 变量 , 其 期 望 和 方 
差分 别 为 Wz、Hy 和 、%y. 它们 的 联合 概率 密度 函数 为 4 











| 4 式 中 eXP (7) 表示 指数 函数 ez. 一 一 编者 注 




















es l (zr — 2): y — 1 ): 
fxYrYl7,y) = fxlrT)fy(y) =- exp 1 一 一 一 -7 一 人 = ne EY . 
27T0r0y 207 203 





联合 概率 密度 函数 的 形状 像 一 口 钟 ， 中 心 在 zj/ 但 是 这 口 钟 不 是 圆 形 的 钟 ,在 x 轴 
和 y 轴 方 向 上 的 宽度 分 别 与 cz 和 %y 成 正比 . 为 了 对 概率 密度 函数 有 一 个 直观 的 了 
解 ， 我 们 考虑 这 口 钟 的 等 高 线 , 即 5,y 平面 上 上， 概率 密 度 函 数 等 于 茶 个 常数 的 点 的 集 
合 . 这 些 等 高 线 可 以 由 下 列 方 各 表示 : 








(一 pa 用 yp) 
202 20; = 常数 . 


这 些 等 高 线 都 是 以 Wz Hy) 为 中 心 的 椭圆 , 它们 的 长 轴 和 短 轴 分 别 平行 于 两 个 坐标 轴 
( 见 图 3. 19) .哪个 轴 为 长 轴 , 要 看 cz 和 0y 的 大 小 .和 若 9 二 0%, 则 等 高 线 为 加 €. 











图 3. 19 ”相互 独立 的 正 态 随机 变量 了 和 了 的 联合 概率 密度 函数 的 等 高 线 , 分 布 的 
期 望 和 方差 分 别 为 Hr、 Hy 和 oz、 2y 

若 了 和 了 相互 独立 , 则 任何 两 个 形 如 {X84} 和 f & B} 的 事件 是 相互 独立 的 . 事 
实 上 ， 


PX eABYeB)= | 


jE y)dydz 
TEAJ YEB 


s | fx (2)fy (Wdydz 
TEA YEB 


pa | tx fy (y)dy 


=P(X & A)P(Y ¢& B). 
特别 地 ， 独 立 性 草 涵 
Fxy(ry) =P(X <rY <Yy)=P(X <7PY < = Fx(r)Fy(y). 
这 些 结论 的 逆 命 题 也 是 成 立 的 ， 见 本 章 末 尾 的 习题 ， 性 质 
Fxy(z,y) = Fx(z)Fy(y) 对 一 切 x 和 yy 成立 


可 以 作为 两 个 随机 变量 相互 独立 的 一 般 定 义 ， 即 使 是 了 为 离散 ,了 为 连续 的 情况 ， 这 
个 定义 也 是 适用 的 . 





相似 于 离散 的 情况 ， 可 以 证 明 : 若 了 与 了 相互 独立 , 则 对 任意 函数 g 和 h 下 式 成 


MM.: 
Elg(X)h(Y)] = Elg(X)]E[A(Y). 

最 后 ， 独 立 随机 变量 之 和 的 方差 等 于 它们 的 方差 之 和 |. 

连续 随机 变量 的 相互 独立 性 

令 了 和 了 为 联合 连续 随机 变量 . 

。 若 

fxY(z, 妇 三 fx(T)fy(y) 对 一 切 x 和 yy 成 立 ， 
则 了 和 了 相互 独立 . 
若 了 和 了 相互 独立 , 则 
E[XY]| = E[X]E[Y]. 


进一步 地 ， 对 于 任意 函数 g 和 hh 随机 变量 gl 六) 和 ih (Y) 也 是 相互 独立 的 ， 


二 蚌 


h(Y)E[g(X)h(Y)] = Elg(X)]EIA(Y). 
若 不 和 地 相互 独立 ， 则 


var(X 十 YY 一 var( Xi 二 varlY). 


3.6 连续 贝 叶 斯 准则 


在 许多 实际 问题 中 ， 我 们 会 遇 到 未 观察 到 的 对 象 . 用 一 个 随机 变量 X 代表 这 种 未 观察 
到 的 量 ， 设 其 概率 密度 函数 为 fx. 我们 能 够 观察 的 量 是 经 过 噪声 干扰 的 量 了 的 分 
布 律 是 条 件 分 布 律 , 其 条 件 概率 密度 函数 为 /YX， 当 了 的 值 被 观察 到 以 后 , 它 包含 熙 
的 多 少 信息 呢 ? 这 类 问题 与 1. 4 节 处 理 的 推断 问题 类 似 , 在 1. 4 节 ， 我 们 用 贝 叶 斯 准则 
解决 推断 问题 ( 见 图 3. 20) . 现在 唯一 的 不 同 之 处 是 我 们 处 理 的 是 连续 随机 变量 . 





















fyx(y|2) fuy(dlY) 


图 3. 20 推断 问题 的 框图 我们 有 一 个 未 观察 到 的 随机 变量 五 其 概率 密度 函数 fx 
是 已 知 的 ， 同 时 我 们 得 到 一 个 观察 随机 变量 上 其 条 件 概 率 密度 函数 为 /YIxX， 给 定 了 
的 观察 值 推断 问题 化 解 成 条 件 概率 密度 函数 fxlYl7ly) 的 计算 问题 


注意 ， 当 观察 到 事件 Y =y 以 后 , 所 有 的 信息 都 包含 在 条 件 概率 密度 函数 xir(z 轨 
中 . 现在 只 须 计算 这 个 条 件 概率 密度 函数 . 利用 公式 fxfrIx = JxY = 六 jy 可 以 得 到 


























,fxlr)fyix(ylz) 
fx|rY (7 |y) 二 yy 

这 就 是 我 们 所 求 的 公式 . 由 于 归 一 化 性 质 三 x fxlY(zly)dz = 1 与 之 等 价 的 表达 式 为 
fxly (zy) fx(z)fyix(ylz) 


EE ADF 


例 3.19 通用 照明 公司 生产 一 种 灯泡 ， 已 知 其 使 用 寿命 了 为 指数 随机 变量 , 其 概率 密 
度 函 数 为 ~,y > 0， 按 过 往 经 验 , 在 任意 给 定 的 一 天 参数 》 实际 上 是 一 个 随机 变 
量 , 其 概率 密度 函数 为 区 间 [1, 3/2] 上 的 均匀 分 布 ， 现 在 取 一 只 灯泡 进行 试验 , 得 到 灯泡 
的 寿命 数据 ， 得 到 数据 以 后 , 对 于 和 的 分 布 有 什么 新 的 认识 ? 


我 们 将 和 看 成 一 个 随机 变量 A, 作为 对 和 的 初始 认识 ，A 的 概率 密度 函数 是 


fa(N)=2, 1<A<3) 


























2. 


当 得 到 数据 y 以 后 , 关于 A 的 信息 包含 于 条 件 概 率 密 度 函 数 falY( 和 ly) 中 , 利用 连续 由 
叶 斯 准则 ， 得 到 








及 (入 ) fria(y|A) 2 和 Xe 名 
站 ADOPratybdt a Dte-tydt 


3. 6. 1 关于 离散 随机 变量 的 推断 


JAYr(Aly) = 


在 实际 问题 中 ， 1 例如 , 在 通信 问题 中 传输 
的 信号 是 一 个 二 进 制 的 信号 ， 经 过 传输 以 后 , 混入 的 噪声 是 正 态 随机 变量 ， 这 样 , 观测 

到 的 随机 变量 就 是 连续 妆 的 随机 变量 ， 或 者 在 医疗 诊断 中 ， 我 们 观察 到 的 量 是 也 是 连续 

I 例如 体温 或 血液 样本 中 的 指标 . 这 种 情况 下 我 们 需要 将 贝 叶 斯 准则 作 适 当 的 
必 父 . 


现在 我 们 研究 一 种 特殊 情况 ， 未 观察 到 的 是 一 个 事件 4. 我 们 不 知道 4 是 否 发 生 了 . 
事件 4 的 概率 P(4) 是 已 知 的 ， 设 了 是 一 个 连续 的 随机 变量 ， 第 且 们 定 么 件 概 率 密 度 
函数 六 32) 和 人 4c(y) 是 已 知 的 .我 们 感 兴趣 的 是 事件 4 的 条 件 概率 P(AIY = 办 .这 
个 量 代表 得 到 观察 值 了 以 后 关于 事件 4 的 信息 . 


由 于 事件 { = 让 是 一 个 零 概 率 事件 , 我 们 转 而 考虑 事件 {y SY < y+5), 其 中 5 是 一 
个 很 小 的 正 数 ， 然 后 令 5 趋向 于 0. 利用 贝 叶 斯 准则 ， 假 定 fyY (WW) > 0, 我 们 得 到 


P(AlIYY = SP(Aly <Y <yt+d) 
P(A)Ply <Y <y+5A) 
~ PW<Y<y+5) 
~ P(A)fylaly)s 
fy (ly) 
P(A)fylaly) 
fr(y) 

















利用 全 概率 定理 ， 可 将 上 式 的 分 母 写成 
fy(y) = P(A fy aly) + P(A) fy ial(y), 
这 样 ， 得 到 


P(A)fy aly) 
P(A)fya(y) + P(AC) fy ac(y) 
现在 令 事件 4 具有 形式 {NN ="}， 其 中 WV 是 一 个 离散 随机 变量 , 代表 未 观察 到 的 随机 


变量 ， 记 px 为 W 的 分 布 列 ， 令 7 为 连续 随机 变量 ,对 任意 W 的 取 值 n。 了 具有 条 
件 概率 密度 函数 fYINty|n). 这 样 上 面 的 公 \ 式 变 成 


P(AlY = 1) = 








P(N =n]Y = = Ye) 


fy(y) 
利用 下 面 的 全 概率 定理 
fy(y) = Pn(i)fyin(yli), 
得 到 


pn (i) fyin (yli) 
i 


PIN nlY 一 yy) 一 


例 3.20 设 9 是 一 个 只 取 两 个 值 的 信号 . 记 RIS3=1=P 和 PlS= 一 =1-- 了 .在 
接收 端 ， 得 到 的 信号 为 Y = N+S， 其 中 WW 是 一 个 正 态 噪 声 ， 期 望 为 0, 方差 为 !， 并 
且 与 9 相互 独立 ， 当 观察 到 的 信号 为 y 的 时 候 , 条 1 的 概率 是 多 少 ? 


对 于 给 定 的 Ss， 了 是 一 个 正 态 随机 变量 ， 期 望 为 s， 方 差 为 1. 应 用 刚才 得 到 的 公式 








_P -(y-1y/2 
?ys(1)fysly|l1) D7 
PlS=1|Y = = ps(WfYis(y|l) 2 7 
fyly) p e—(y-1)/2 是 1 一 P -ly+1)?/2 
V27 27 
将 上 式 简化 得 
pe 


P(S = 1IY = 二 
| y) pey + (1 — pe y 


注意 ，PlS = 1lY 一 切 当 ! 一 -ce 时 趋 于 0， 当 一 ce 时 趋 于 1, 7 在 实数 轴 上 变化 时 ， 
PlS=1Y = 是 y 的 严格 上 升 函数 ,这 符合 直观 的 理解 . 


3. 6.2 基于 离散 观察 值 的 推断 


Se 现在 观察 值 是 离散 的 . 我 们 可 以 反 解 前 面 的 关于 Pt4 = 急 的 公 
式 ， 得 型 














0 Fr WP(AY = 
fylaly) = P(A 


pa a 
利用 周一 化 性 大 上。 下 的 其 相应 的 等 价 的 表达 式 为 

fay) = = 
/ fy(H)P(AIY = t)dt 


这 个 公式 可 以 用 于 对 二 的 推 肠 ， 当 事件 4 发 生 的 时 候 , 全 部 关于 了 的 信息 都 包含 在 
这 个 条 件 概 率 密度 函数 中 . 当 事 件 4 具有 {w = 对 的 形式 的 时 候 ， 可 以 得 到 相应 的 公 
式 , 其 中 W 是 一 个 观察 到 的 离散 随机 变量 , 该 离散 随机 变量 在 条 件 分 布 列 PNIY(nIy) 下 
依赖 于 了 
连续 随机 变量 的 贝 叶 斯 准则 
令 了 为 连续 随机 变量 . 
。 若 了 为 连续 随机 变量 ， 我 们 有 
fxlrlTly) fy (ly) = zx 


和 











xziprxtglz) cx 


fxlrlzly) = = -5 
FY jixidat 


。 若 VW 为 离散 随机 变量 ， 我 们 有 
fy(WP(N = n|Y = = py(n)fyy(y|n), 
得 到 的 贝 叶 斯 公式 为 


0 pxy(n)fyin(yln) py(ln)fyy(yln) 


fyly) ~ Dpnli) fyin(yli) 
和 
Fonlyln) = FWP = nlY = _ fr(WP(N =nly = 
ts pw(n) RAOPN =nlY = tat 


。 对 于 事件 4 关于 P(4IY = 切 和 frialy) 具有 类 似 的 贝 叶 斯 公式 . 


3.7 小 结 和 讨论 


通常 用 概率 密度 函数 来 刻画 连续 随机 变量 . 连续 随机 变量 的 概率 密度 函数 用 于 计算 由 随 
机 变量 刻画 的 事件 . 概率 密度 函数 与 离散 情况 下 的 分 布 列 的 作用 完全 相同 ， 唯 一 的 区 别 
是 计算 概率 的 时 候 ， 它 使 用 积分 计算 , 而 离散 的 情况 下 使 用 求 和 进行 计算 . 联合 概率 密 
度 函 数 的 作用 与 离散 情况 下 的 联合 分 布 列 一 样 , 均 用 于 计算 由 多 个 随机 变量 刻画 的 事件 
的 概率 ， 条件 概率 密度 函数 用 于 计算 给 定 条 件 随 机 变量 的 值 的 情况 下 的 条 件 概率 . 条 件 
概率 的 一 个 重要 的 应 用 是 推断 问题 . 本 章 介 绍 了 各 种 各 样 的 用 于 推断 的 贝 叶 斯 准则 . 


在 概率 模型 中 ， 有 许多 十 分 重要 的 连续 随机 变量 ， 本 章 介绍 了 几 个 分 布 , 并 且 在 下 面 列 
出 了 它们 的 重要 的 特性 指标 : 期 望 和 方差 . 


连续 随机 变量 的 某 些 结果 
[a b] 上 的 连续 均匀 随机 变量 





















































fx(z) = 10-0 
0 


十 ; {6—a): 
a 
2 


分 布 参数 为 A 的 指数 随机 变量 


Ae~**， 者 z 风 0, Te 
jx(z) = FxX(z) = 
0, 其 他 ， 0, 其 他 ， 
EI[X|=~, var(X)= 亏 


分 布 参数 为 和 oo > 0 的 正 态 随机 变量 


1 【 )2 /2r2) 

| 一 一 人 了 工 一 人 矿 八 <cG ) 
大 (ZI = 一 一 6 
V 270 


E[X| =k1, varlX)= oi. 


本 章 也 引入 了 分 布 函数 的 概念 ， 分 布 函 数 可 以 刻画 一 般 的 随机 变量 , 它 涵盖 了 连续 和 离 
散 的 随机 变量 , 也 可 用 于 刻画 既 非 连续 又 非 离散 的 随机 变量 . 因此 分 布 函数 的 概念 更 加 
一 般 ， 在 离散 的 情况 下 , 我 们 可 将 分 布 函数 进行 差分 ， 得 到 分 布 列 ; 在 连续 情况 下 , 将 
分 布 函数 微分 ， 得 到 概率 密度 函数 . 











习题 

3.1 节 ”连续 随机 变量 和 概率 密度 函数 

1， 设 了 为 区 间 [0, 1] 上 的 均匀 分 布 的 随机 变量 . 考虑 随机 变量 Y= 9g(X)， 其 中 
1， 若 z < 1/3, 


= 2， 若 z> 1/3. 





a 了 的 分 布 列 ， 然 后 利用 期 望 的 计算 公式 求 出 了 的 期 望 . 用 期 望 规则 验证 计算 
结果 . 


2， 拉 普 拉 斯 随机 变量 设 了 的 概率 密度 函数 为 
JFX (z) = ex 


其 中 入 为 分 布 的 正 参 数 ， 验 证 fx 的 归 一 化 条 件 , 并 计算 了 的 均值 和 方差 . 
3.# 对 于 离散 或 连续 随机 变量 和 证 明 下 式 成 立 
E[X| = 三 P(X > zjdrz 一 P(X < 一 zj)dz. 
0 0 


解 ” 先 假定 XY 是 连续 随机 变量 .我 们 有 


| P(X > zjdrz = | Wy fx (Way) dr 
J0 J0 JI 
0 y 
一 1 (/ Ptndz】 dy 
Jo \J0 
20 y 
fx(y) (/ dz】 dy 
J0 J0 


=| yfxly)dy, 
J0 


人 分 次 序 的 结果 , 在 交换 次 序 的 过 程 中 利用 了 集合 等 式 
(zl0 入 Z< co,T 芝 < < co = {{(z, y)0 < 7z,0 <y < co 类 似 地 ， 可 以 证 明 


30 0 
/ P(X < 一 zjdz = 一 / yfyly)dy. 
J0 J 一 oa 


利用 上 述 两 个 等 式 ， 可 以 得 到 所 需 的 结 


其 次 ， 设 了 是 离散 随机 变量 ， 此 时 


y>0 


y 
= x( '( dz】 
Dm y 站 


= >》 ypx(y)， 
y>0 


其 余部 分 的 证 明 与 连续 情况 完全 相似 . 
4.* 证 明 下 列 期 望 规则 ; 





Elg(X)] = / g(r) fx(z)dz, 


其 中 fx 是 连续 随机 变量 了 的 概率 密度 函数 . 
解 ” 将 函数 8 写成 两 个 非 负 函数 的 差 
glz)} =57 (2) =9 {7); 


其 中 (7) = max{g(7),0} gg (7)=max{ 一 g(7),0} 对 于 上 >0， gz) >t 与 g(rz)>t 
是 等 价 的 . 


现在 利用 习题 3 的 结果 
Elg(X)] -/ P(g(X)> dat— / P(g(X) < —t)dt. 

上 式 右 边 的 第 一 项 等 于 

(zjdzdt = -[(T}dtdzr = “(rT)fxlz)dz. 

人 i 局 网 =t<gfz)} / | 

利用 对 称 性 ， 对 于 右边 的 第 二 项 有 

人 P(g(X) < -bdt = / ~ gy-(z)fx(z)dz. 

J0 J—o0 


将 两 个 结果 合并 ， 得 到 


Elg(X)] = | g+(z)fx(zjdz 一 / g-(z) fx(z)dz = 下 g(r) fx(z)dz. 


3.2 节 分 布 函数 


5.， 按照 均匀 分 布 律 ， 在 一 个 三 角形 内 随机 地 取 一 个 点 . 设 已 知 三 角形 的 高 ， 求 这 个 点 
到 底 边 的 距离 了 的 分 布 函 数 和 概率 密度 函数 . 


6， 简 去 银行 取款 ， 有 1 个 或 0 个 顾客 在 她 前 面 , 这 两 种 情况 是 等 可 能 的 .已 知 一 个 顾客 
的 服务 时 间 是 一 个 指数 随机 变量 , 参数 为 入 简 等 待 时 间 的 分 布 函数 是 什么 ? 


7.， 阿尔 文 在 进行 投 飞 标 游戏 ， 飞 标的 靶 是 一 块 半径 为 x 的 圆 板 . 记 了 为 飞 标 的 落 点 
到 加 心 的 距离 ， 假 定 落 点 在 间 板 上 均匀 地 分 布 . 


(a) 求 出 了 的 概率 密度 函数 、 均 值 和 方差 . 


(b) 骤 上 画 了 一 个 半径 为 t 的 同心 圆 ， 若 六 < t， 阿 文 尔 的 得 分 为 $= 4/ 六, 其 他 情 
况 0. 求 出 5S 的 分 布 函数 .5S 是 不 是 连续 随机 变量 ? 


8. 设 六 和 2 是 两 个 连续 随机 变量 . 随机 变量 丰 以 概率 p 等 于 1 以 概率 1 一 了 等 
于 芝 


(a) 证 明 了 的 概率 密度 函数 为 
fxlT) =pfyl7z) + (1— p)fzl(7). 


(b) 求 出 双边 指数 随机 变量 的 分 布 函 数 ， 双 边 指 数 随机 变量 的 概率 密度 函数 为 


























pAe”®, 大 六 仁 


0 1 


其 中 A>0, 0<p<1 


9.* 混合 随机 变量 . 有 时 候 , 一 个 概率 模型 可 以 看 成 一 个 离散 随机 变量 了 和 一 个 连续 
随机 变量 2 的 混合 . 例如 ， 了 以 概率 p 取 了 值 ， 以 概率 1-P 取 Z 值 . 这 样 , 称 了 
为 混合 随机 变量 , 利用 全 概率 定理 可 得 到 X 的 分 布 函数 


Fx(T)}= P(X 区 了 ) 
=pP(Y <7z)+(1—pP(Z < 7) 
= pFy(r)+ (1 — p)Fzl(7). 


通过 全 期 望 定理 ， 可 求 得 了 的 期 望 值 
E[X| 二 PE[2 十 【1 —p)E[Z]. 
阿尔 家 附近 有 一 个 公共 汽车 站 和 一 个 出 租 汽车 站 ， 两 个 站 是 在 一 起 的 . 阿尔 出 门 的 时 


候 ， 若 车 站 有 出 租车 等 着 (这 种 机 会 的 概率 为 2/3) , 他 就 上 出 租车 ; 不 然 他 就 在 站 上 等 
车 ， 来 出 租车 就 上 出 租车 , 来 公共 汽车 就 上 公共 汽车 ， 先 到 先 上 . 已 知 出 租车 将 在 0 10 




















分 钟 内 到 达 ， 等 待 时 间 是 在 (0, 10) 分 钟 之 间 均 匀 分 布 的 ， 而 等 待 下 一 趟 公共 汽车 的 时 
间 是 5 分 钟 . 求 阿尔 等 待 时 间 的 分 布 函数 和 期 望 值 . 


解 记 4 表示 当 阿尔 到 达 车 站 的 时 候 有 一 辆 出 租车 等 着 他 或 者 他 在 车 站 上 等 5 分 钟 以 
后 , 登 上 公共 汽车 ， 当 阿尔 必须 等 车 的 条 件 下 , 阿尔 登 上 公共 汽车 的 概率 为 


P( 出 租车 在 5 分 钟 后 到 达 ) =172. 
阿尔 的 等 车 时 间 了 是 一 个 混合 随机 变量 .以 概率 

















es 了 (相当 于 或 者 出 租车 在 站 上 等 着 或 者 登 上 公共 汽车 ). 了 的 分 布 列 


2 





3P(AY 若 y= 0, 
py (VY) = 1 

Ee 一 党 

6P(4) 乔 vy » 

12 

Te 各 yy 一 0， 

下 晶 
18 > 4 一 GB 
通过 下 列 计算 得 到 py(0) 的 值 : 

PE ry i 








PY(35) 的 计算 是 类 似 的 ，] 与 概率 1 一 Pl4) 相对 应 的 随机 变量 Z (相应 于 到 达 车 站 以 
后 ， 必 须 等 车 , 但 5 分 钟 内 到 达 一 辆 出 租车 ) 的 概率 密度 函数 为 


1/5;， 若 0&Z&5, 
0， ”其 他 . 


这 样 ,了 的 分 布 函数 Fx(7) =P(4)Fy(z) + (1 一 P(4))Fz(z) 由 下 式 给 出 


fz(z) = 


5 12 12 
i 6 5 Ogsz<5 
和 泡 遇 汪 法 
阿尔 的 平均 等 车 时 间 为 





10. * 模拟 一 个 连续 随机 变量 ， 计 算 机 有 个 产生 [0, 1] 上 均匀 分 布 的 随机 变量 Z 的 
程序 . 利用 这 个 程序 可 以 产生 一 个 连续 随机 变量 和 而 了 的 分 布 函数 为 fl). 设 V 产 
生 一 个 数 zw 相应 了 的 取 值 x 为 满足 方程 了 (7z) 一 “ 的 解 . 为 简单 起 见 ， 我 们 假定 分 
布 函数 F(z) 在 = {zl0 < F(z) < 1} 上 严格 上 升 . 这 个 假定 条 件 可 以 保证 对 每 一 个 
u El0,1)， 唯 一 地 对 应 一 个 亏 使 得 FIz) =. 

(a) 证 明 如 此 生成 的 五 其 分 布 函数 的 确 为 给 定 的 F(z. 

(b) 利用 这 种 方法 模拟 产生 一 个 指数 随机 变量 ， 其 参数 为 入 

(c) 如 何 利 用 这 种 方法 模拟 产生 一 个 离散 的 整数 值 随机 变量 ? 

解 


人) 根据 产 和 规则， 和 应 该 满 尼 关 系 式 P(X) = 由 于 太 是 单调 的 ， 对 每 一 个 
了 > 六 














X <z 的 充 要 条 件 为 F(X) < F(z) 
这 样 
P(X <7z)=P(F(X) < F(z)) =P(U < F(z7)) = F(z). 


上 式 的 最 后 一 个 等 式 是 利用 了 V 是 一 个 均匀 随机 变量 的 特性 . 这 样 了 的 分 布 函数 就 是 
事先 确定 的 F(z). 


(b) 指数 分 布 函数 具有 形式 Flz) = 1 一 eXY,z > 0， 为 生成 了 ， 首 先 产生 一 个 单位 区 
各 (0, 1D 上 的 均 久 隐 机 要 的 一 个 值 ”之 后 ! 需 解 方程 1 -er = v， 这 个 方程 
的 解 为 = 一 一 In(1 一 中 








工 


5 与 x 相应 的 随机 变量 了 的 分 布 函数 为 下 (7) 一 工 一 e ,7 > 0. 一 一 译 者 注 


(c) 设 是 离散 的 取 整 数值 的 随机 变量 的 分 布 函数 .对 于 每 一 个 4& (0,1， 存 在 唯一 
的 一 个 整数 zt， 满足 F(z 一 1) <U<F(z,)， 这 相当 于 定义 了 随机 变量 了 作为 随机 
变量 V 的 一 个 函数 ， 对 每 一 个 整数 ， 


























P(X =k)=P(F(k 1)<U< FE))= Fk) Fk 1). 


如 此 构造 的 随机 变量 了 的 分 布 函数 就 是 事先 指定 的 . 


3.3 节 正 态 随机 变量 

11. 设 了 和 了 是 两 个 正 态 随机 变量 ， 其 均值 分 别 为 O 和 1, 方差 分 别 为 1 和 4 
(a) 求 P(X <15)fIP(X < -1). 

(b) 求 (Y 一 DD/2 的 概率 密度 函数 . 

(c) 求 Pl-1<Y<1). 


12， 设 了 是 正 态 随 机 变量 ， 其 均值 为 0%0， 标 准 差 为 o. 利用 正 态 分 布 函 数 表 计 算 
P(X>ko) 和 P(IX| < fo) k=1,2,3. 











13. 设 某 个 城市 的 气温 为 正 态 随机 变量 , 其 均值 和 标准 差 均 为 10"C， 问 在 给 定 的 时 刻 气 
温 不 高 于 59°%F 的 概率 有 多 大 ? 


- e-™ /2dz 
14. x* 证 明正 态 概率 密度 函数 的 归 一 化 性 质 . 提示 : ”积分 上 的 值 等 于 积分 


三 [. ez /2ey /2drdy 
的 平方 根 ， 而 后 面 的 积分 可 以 通过 积分 变换 化 成 极 坐 标 系 内 的 积分 . 
解 注意 下 面 的 等 式 : 
|: ez /2dz ey /2dy 


DO & 
1 2 /0 l 
| 一人“ (dz | = 一 
J--=o V 27 27 
0 0 
一 [72.41211D 
/ / e “YH drdy 
9 一 0 J—00 
站 
1 EA 0 a 0 _ 
一 一 e /rdrdp 
27 Jo .Jo 
> “人 





此 处 ， 第 三 个 等 式 是 将 积分 变 成 极 坐标 中 的 积分 的 结果 . 第 五 个 等 式 是 作 变 量 蔡 换 
4 二 7 /2 的 结果 . 这 样 我 们 得 到 (因为 这 个 积分 是 非 负 的 ) 


一 2 1/D 
e™/*dr=1. 





“VYV 于 
现在 利用 变量 替换 “= (7 一 四 /9， 得 到 


而 fxlz)dz = 广 gs 一 让 ye 
3.4 节 多 个 随机 变量 的 联合 概率 密度 


15， 在 半圆 周 {(z,v)|r + < 7,y > 0} 内 按 均 匀 分 布 随机 地 取 一 个 点 (X,Y 了 )( 这 里 
r > 0, 是 固定 的 正 数 ). 


(Gi) 求 出 (X,Y) 的 联合 概率 密度 函数 . 
(ii) 求 出 了 的 边缘 概率 密度 函数 , 并 利用 它 求 出 EY] 

(iii) 不 用 边缘 概率 密度 函数 , 利用 期 望 规则 直接 计算 E[Y] 

16， 考 虑 下 面 的 布 丰 抛 针 间 题 ( 例 3. 11) 的 变形 , 这 是 拉 普 拉 斯 研究 过 的 问题 ， 在 坐标 平 
面 上 画 上 格子 , 水 平 线 之 间 的 距离 为 a ， 垂 直线 之 间 的 距离 为 和 . 现在 往 平面 上 丢 一 
根 长 度 为 7 的 针 ， 不 妨 假定 1 < a 和 1 < 6 成 立 . 针 与 格子 相交 的 边 数 的 期 望 值 是 多 
少 ? 针 与 至 少 一 条 边 相 交 的 概率 是 多 少 ? 

17. * 利用 另 一 个 随机 变量 的 样本 估计 一 个 随机 变量 的 期 望 值 . 设 i,… ,35 为 来 自 概 


率 密度 函数 fy 的 一 个 样本 . 令 5 为 7 的 所 有 可 能 值 的 集合 ， 即 5 = {yr() > 路 
令 了 的 概率 密度 函数 为 fx， 假定 对 一 切 yg 5, 均 有 fx(y) = 0， 考 虑 随机 变量 


1 雪 (¥ 
i 计 全 外 
n 全 fy (Yi) 





e—w/2 


du = 1. 
































证 明 
E[2] = E[X] 
解 ” 我 们 有 
-fx (Yi) 关节) 
| yj 一 f wx(yay = EX] 
这 样 ， 





1 Yt lo 
lz] = 1 DE | | = $3 ep- 


18. 设 了 是 一 个 随机 变量 ， 其 概率 密度 函数 为 


/4 lw, 


六 二 
x (7) ok 


令 4={X>2}. 
(a) 计算 E[X]、 P(A4)、fxia(z)、E[X|4 
(b) 令 了 = X? 计算 ElY fiIvar(Y). 


19. 设 了 是 一 个 随机 变量 ， 其 概率 密度 函数 为 
cr ”, 和 区 


fx (2) = 
x(z) J 


(a) 确定 常数 c . 

(b) 令 ={X>1.5} 计算 P(4) 和 了 在 4 发 生 的 条 件 下 的 条 件 概率 密度 函数 . 
(c) 令 Y=X2 计算 了 在 4 发 生 的 条 件 下 的 条 件 期 望 和 条 件 方 差 . 

20. 一 个 粗心 的 教授 错误 地 将 两 个 学 生 的 答疑 时 间 安 排 在 了 同一 时 刻 . 已 知 两 位 同学 的 
答疑 时 间 长 度 是 两 个 相互 独立 并 且 同 分 布 的 随机 变量 . 其 共同 的 分 布 是 指数 分 布 ， 期 望 
值 为 30 分 钟 ， 第 一 个 学 生 按 时 到 达 , 5 分 钟 以 后 ， 第 二 个 学 生 也 到 达 . 从 第 一 个 学 生 到 
达 起 直到 第 二 个 学 生 离 开 所 需 时 间 的 期 望 值 是 多 少 ? 

21.， 我 们 从 一 根 长 度 为 7 的 杆 开 始 , 在 杆 上 按 均匀 分 布 找 一 个 点 ， 以 这 个 点 为 切断 点 ， 
将 杆 分 为 两 半 . 我 们 保留 杆 的 左边 部 分 ， 设 这 部 分 的 长 度 为 不 . 对 于 长 度 为 不 的 这 一 
根 杆 ， 重 复 这 一 切断 的 过 程 , 设 第 二 次 切断 后 保留 下 来 的 部 分 的 长 度 为 了. 

(a) 求 出 了 和 了 的 联合 概率 密度 函数 . 

(b) 求 了 的 边缘 概率 密度 函数 . 

(c) 利用 了 的 边缘 概率 密度 函数 计算 EL 站 

(d) 利用 关系 式 = 二 六"(Y/X) 计算 EIY1 

22， 我 们 有 一 根 长 度 为 1 的 杆 , 利用 下 面 3 种 不 同 的 方法 将 杆 截 成 3 段 . 

(i) 利用 均匀 分 布 在 杆 上 随机 且 相 互 独立 地 取 两 个 点 , 在 这 两 个 点 处 将 杆 截 断 . 











(ii) 首先 , 在 杆 上 按 均匀 分 布 随机 地 取 一 点 ， 在 这 个 点 处 将 杆 截断 然后 将 右 端 这 一 截 
如 法 炮制 ， 还 是 按 均匀 分 布 随机 地 找 一 点 ， 在 这 个 点 处 将 这 一 截 再 分 成 两 段 . 


(iii) 首先 ， 在 杆 上 按 均匀 分 布 随机 地 取 一 点 , 在 这 个 点 处 将 杆 截断 ， 然 后 将 较 长 的 那 
一 截 如 法 炮制 , 还 是 按 均 匀 分 布 随机 地 取 一 点 ， 在 这 个 点 处 将 这 一 截 再 分 成 两 段 . 


对 这 三 种 方法 的 每 种 方法 ， 分 别 求 出 截 成 小 段 后 杆 能 组 成 一 个 三 角形 的 概率 . 


23， 设 在 直角 坐标 系 中 三 个 点 (0,0) 、(0, 1)、(1, 0) 组 成 一 个 三 角形 . 假定 (X,Y 了 ) 是 一 
个 随机 点 的 坐标 ， 这 个 随机 点 是 在 三 角形 上 均 勾 分 布 的 . 


(a) 找 出 了 和 了 的 联合 概率 密度 函数 . 
(b) 找 出 了 的 边缘 概 率 密度 函数 . 
(c) 找 出 了 的 在 给 定 了 值 之 下 的 条 件 概率 密度 函数 . 
(d) 求 出 ELXIY = 四 利用 全 期 望 定理 求 出 EI[IX] 的 依赖 于 ELY] 的 表达 式 . 
(e) 利用 对 称 性 求 出 ELX] 
24， 设 在 直角 坐标 系 中 三 个 点 (0,0) 、(1 0) 、(0, 2) 组 成 一 个 三 角形 . 假定 (X,Y 了 ) 是 一 
个 随机 点 的 坐标 ， 这 个 随机 点 是 在 三 角形 上 均匀 分 布 的 (与 题 23 不 同 ， 此 题 中 的 了 和 
了 是 不 对 称 的 ). 按 题 23 中 的 方法 求 出 ELX 所 ELY] 
25.， 设 平面 上 一 个 随机 点 的 两 个 坐标 为 了 和 了 .它们 是 独立 同 分 布 的 正 态 随机 变量 ， 
公共 期 望 为 0， 方 差 为 2 已 知 这 个 点 离 原点 的 距离 至 少 为 c . 求 了 和 了 的 条 件 联 
26.* 设 AI ,Xn 为 独立 随机 变量 序列 .证 明 公 式 

var (ITI; Xi) a /varlXi) ES 

TD I[( BIA !) 


i=] 














\ 











解 ”我 们 有 


| -了 ee 
i=] 


i=] 


< 
-一 
TD 可 > 
加 
Wo 
| 


再 在 等 式 两 边 用 


除 ， 便 得 到 所 需 的 结论 . 


27， 以 随机 事件 为 条 件 的 多 元 随机 变量 ， 设 了 和 了 为 联合 连续 随机 变量 , 其 联合 概 
率 密度 函数 为 fxr 令 4 是 二 维 平面 的 一 个 子 集 , 又 令 C={(X,Y)e 4 事件 C 
满足 PIC) > 0. 定义 








fxv (x,Y) 
py 硬 Ke 全 帮 


0, 其 他 . 


(a) 证 明 fxxic 是 一 个 合格 的 联合 概率 密度 函数 . 
(b) 令 生 (i=1,…,n) 为 二 维 平面 的 一 个 分 割 ， 记 Ci= {(X, 了 ) < 44}， 并 假定 对 每 一 
个 7 ，P(Gi) > 0， 推 导 下 列 形式 的 全 概率 定理 : 


n 


fx.Yvlz,y) = 时 PlCi)fxyoc, lz,Y). 


i=1 


28.* 设 随机 变量 了 具有 双边 指数 概率 密度 函数 


Frlcktzy 切 








DPXAe 2， 和 二 党 0, 
(1 —p)Ae™”; 大 工人 < 0， 


其 中 入 和 p 是 参数 ， 和 > 0，PE 10, 直 利用 下 面 的 两 种 方法 求 不 的 期 望 和 方差 : 
(a) 利用 期 望 和 方差 的 定义 直接 计算 . 

(b) 利用 全 期 望 定理 进行 计算 . 

解 

(a) 


fx(z) = 


E[X| = / rfx(T)dr 


0 o0 
一 / Ti1 一 有 Xexzdz 十 / rpMe Tdz 





0 
et 
入 入 
2p—1 
A 
CO 


E[X3] 一 1 ri fx(r)dr 


0 2Q 
一 / z2fl — p)Ae*Tdr 十 / ripMe "dz 
/0 


2(1 —p) 2p 
em] 





XN 
利用 方差 的 定义 ， 得 到 





2 2p—1 - 
va(X)= 训 ~ ( A 外 


(b) 记 44={X 三 上 }， 利用 不 的 概率 密度 函数 的 公式 ， 很 快 得 到 PL4) = 忆 在 4 发 
生 的 条 件 下 ， 了 了 的 条 件 分 布 为 指数 分 布 ， 其 参数 为 入 同样 在 4 发 生 的 条 件 下 , 随机 
变量 -X 也 具有 指数 分 布 ， 参 数 为 -入 由 此 可 得 





EIXI4] = 二 EIX|4q = -7 

和 

EIX?|A] = EI[X?|A°] = a 
再 利用 全 期 望 定 理 得 到 

EIX] = PCUJEIXI +P(U4e)E[X|4q 

= 

人 

_ 2p—1 

和 


E[X3 = P(A)E[X?|A] +P(4e)JE[X249] 
2p 2(1 —p) 








2 2p 一 1N? 
var(X)= ( 一 ) 


29.* 设 不 大 2 的 联合 概率 密度 函数 为 Arz. 证 明 乘法 规则 : 





fxY,2(7,Yy,2) = fxly,z(Tly, 2)fylz(y|2)fz(2). 
解 ” 利 用 条 件 概率 密度 函数 的 定义 ， 


Jxyrz(z; y, 2) 


"yz(rIy, z) = 一 一 
fxlr.z(T|y, 2 a 


和 
fy,zly, 2) = fylz(y|z)fz(2). 
将 两 个 关系 组 合 便 得 到 三 个 变量 的 概率 密度 函数 的 乘法 规则 . 
30.* 贝塔 概率 密度 函数 ， 参 数 为 ol> 0) 和 5(> 0) 的 贝塔 概率 密度 函数 为 





fx(z) = 4 Bla,B) 


其 归 一 化 常数 为 
1 
Bta, 5) = rT 1(1 7) ldz, 
J0 
Bla, 5) 就 是 著名 的 贝塔 函数 . 


(a) 证 明 对 任何 m= 0 ， 了 的 ww 阶 矩 的 公式 为 


_ Bla+m,3) 
Bla.83) 


E[X™] 


(b) 设 a 和 5 为 正 整 数 ， 证 明 
(a — 1)1(8— 1)! 


B(a. 8) = 
re 


因此 ， 


-m] alfla 十 1 (a 二 7 一 二 
MA (a+ 3)(a+B+1):…(a+8+m—o1) 


(注意 ; 按 惯 例 01=1. ) 


解 
(a) 我 们 有 
rm] _ 1 “mm 0—1 -11 Bla Tn, 3) 
E[X 1- Ba/ TT 地 (1— Zz) We 


pe 我 们 可 以 通过 直接 积分 验算 结果 .现在 讨论 一 般 情况 ， 记 
1,… ,Yars 为 独立 同 分 布 的 随机 变量 ， 其 公共 分 布 为 [0, 1] 上 均匀 分 布 ， 令 


A={Yi<:…<Y, <Y <Yn < < Ya}. 


由 于 4 + 了 5 十 1 个 随机 变量 的 各 种 次 序 都 是 等 可 能 的 ， 我 们 有 


1 
(ae 十 5 上 HH) 





P(A) = 


现在 考虑 事件 
B= {max{Yi,… ,Ya} <Y}, C={Y < min{fYor,. ,Yra}}. 


利用 全 概率 定理 ， 得 到 


P(BNMNC)= PIBNCIY =y)fyly)dy 


Pl(max{Yi, ,Ya} <y < min{Yor,. ,Yora hdy 
Pl(max{Yi,… ,Ya} < PY < min{Yor, ,Yara})dy 
yr (1 — ydy. 


由 于 给 定 8 和 C 的 条 件 下 , 所 有 a! 个,… ,Ya 和 所 有 83 个 ia ,Yat8 的 次 序 是 
等 概率 的 ， 这 样 


1 
P(AIBNMC) = 一 一 . 
al8I! 


现在 将 所 得 到 的 公式 代入 方程 
P(A) = P(BN COC)P(AIBNO) 


中 ， 便 得 到 
1 


1 1 
(1 Ydy, 


(a+B+1)l al5! . 


这 个 方程 可 写成 如 下 形式 : 
al191 


tae+3+IJL 对 所 有 正 整 数 a 和 5 成 立 . 


31. * 利用 模拟 求 期 望 值 ， 设 fx(7) 为 某 个 概率 密度 函数 , 它 满足 下 面 的 条 件 ，a、 色 
c 为 三 个 非 负 数 (a 三世 fx(7) 在 区 间 lo 可 外 为 0， 并 且 zfx(7) <c 对 一 切 x 成 立 . 
现在 以 如 下 方式 产生 独立 随机 变量 i=12,… ,区 ; 由 (a,0)、(b,0)、(a,c)、(b,0o 
四 个 点 构成 坐标 平面 上 的 一 个 矩形 ， 按 这 个 矩形 的 均匀 分 布 产生 一 个 随机 点 列 
(Vi,WADG=1,…,n)， 如 果 TEST 邻 下 =1 否则 令 五 =0. 令 


Bla+t+1,83+1)= 





证 明 





特别 地 ， 当 n 一 oc 时 var(Z) 一 0. 
解 ” 我 们 有 
E[Z] = P(Y = 1) 
= PlWi < Vifx(V)) 


b vfxlv) 1 
三 / / 一 dwdv 
ja da clb—a) 


vfx(lv)dvu 
clb—a) 
E[X]| 


ctbp 一 ah) 





随机 变量 2 的 方差 为 


nn 


varl(Z) = 








由 于 0< (1 一 2p)”=1 一 4p(1 一 p),p(1 一 P) < 1/4; 从 而 P(X = 1)(1 一 P(Y =) < 1/4 栽 们 
得 到 var(2) < 1/(4n) 





32.* 设 了 和 了 为 联合 连续 随机 变量 , 其 联合 概率 密度 函数 为 /X,Y， 设 对 任意 实数 子 
集 4 和 8， 事件 XEs4 和 事件 Ye B 相互 独立 .证 明了 和 了 是 相互 独立 的 随机 变 


三 | 


里 . 

解 ” 对 于 任意 两 个 实数 x 和 y ,利用 事件 {1 三 z 和 {Y 让 的 相互 独立 性 , 得 到 
Fxy(r,y) =P(X<xY <y) = PX< NPY <y) = Fx(x)Fy(y). 

对 两 边 求 导数 ， 得 


PFxy, 、 ou > 
一 一 一 (T,?) = 人 
OrOy 


由 上 式 可 知 ， 按 随机 变量 XY 和 了 相互 独立 之 定义 ， 它 们 是 相互 独立 的 . 


33.# 随机 数 个 独立 随机 变量 的 和 ， 假 如 你 竹 了 VW 个 商店 , 其 中 W 是 一 个 随机 变量 . 
又 设 在 第 7 个 商店 ， 你 花 掉 的 钱 数 是 Xi 故 你 花 掉 的 总 钱 数 为 


T= XI+ Xo+.…+ XN. 


我 们 假定 VW 是 一 个 离散 随机 变量 ， 其 分 布 列 为 已 知 , 而 Xi 的 期 望 和 方差 相同 ， 记 为 
ELIX] 和 var( 六 )， 进 一 步 假定 , 所 有 的 Xi 以 及 W 都 是 相互 独立 的 ， 证 明 


E[IT|] = ELX]: EIN], var(T) = var( X)E[IN| + (EI[X he varlN). 


解 设 N=i， 此 时 你 只 进 了 7 家 商店 ， 在 每 一 家 商店 , 你 花 钱 的 平均 值 为 EIX] 这 
样 ， 对 所 有 工 ， 


xyrtz 功 一 y Y= fx (lz) fy(Y). 























EIT|IN = 1] = iE[X]. 


现在 利用 全 期 望 定理 ， 得 到 


-Dn P(N = iEITIN = 


0 由 Xi 之 间 的 独立 性 可 知 , 如 果 i 关 j 则 EIXiXj] = (E[X]) 这 样 7 的 二 阶 算 


EIT?] = 》 PN=aEIT2N = 
i=1 


= 》PN=iE[(CXI + + XN)IN = 
E=1 


一 P(N =7) (iE[X’] +i(i— 1)(E[X])’) 


|| 
ks 


= E[X] iP(N 一 让 十 (EY i(i— 1)P(N =7) 
i=1 这 1 

= E[X°]E[N] + (E[X])’ (E[N?] — E[N]) 

= var(X)E[N] + (ELX])*E[IN’]. 


7 的 方差 为 


可 了 


var(T) = EIT3 一 (E[Z])2 
= var(X)E[N] + (EL[X]) EI[N’] — (ELRS) (EDV]7 
= var(X)E[N] + (E[X]) (EI[N?] — (E[N])) 
= var(X)E[N] + (E[X]) var(N). 


注 ， 在 第 4 章 中 我 们 将 以 更 抽象 的 方式 得 到 E[T] 和 var(7) 的 公式 . 
3.6 节 连续 贝 叶 斯 准则 
34， 一 台 有 问题 的 硬币 浇铸 机 所 生产 的 硬币 是 有 缺陷 的 . 在 抛 扼 硬币 的 试验 中 正面 出 现 
的 概率 P 是 一 个 随机 变量 ，P 的 概率 密度 函数 是 
el 归隐 省， 
0， 其 他 ， 


现在 从 这 批 产 品 中 抽取 一 枚 进行 抛掷 硬币 试验 ， 进 行 独立 重复 的 抛掷 . 

(a) 求 出 抛掷 硬币 的 时 候 正面 出 现 的 概率 . 

(b) 已 知 抛掷 一 枚 硬币 后 出 现 正面 ， 求 P 的 条 件 概率 密度 函数 . 

给 定 第 一 次 抛 括 的 结果 是 出 现 正 面 . 求 第 二 次 抛 括 硬币 的 时 候 出 现 正面 的 条 件 概 


fr(p) = 





35.* 设 了 和 了 为 相互 独立 的 连续 随机 变量 , 其 概率 密度 函数 分 别 为 fx 和 fry. 令 
Z=X+Y. 


(a) 证 明 fzix(2|7) = 所 (2 一) 提示 : 写 出 给 定 了 的 条 件 下 2 的 分 布 函 数 ,然后 求 导 . 





(b) 假设 了 和 了 的 分 布 为 指数 分 布 ， 其 参数 为 和 求 出 了 在 给 定 Z =z 之 下 的 条 
件 概率 密度 函数 . 


(c) 假设 和 的 分 布 为 正 态 分 布 ， 其 期 望 为 0%， 方 差分 别 为 中 和 %， 求 出 了 在 
给 定 Z = z 之 下 的 条 件 概 率 密 度 函 数 . 


解 
(a) 我 们 有 
P(Z <z|X=7)=P(X+Y <z|X =7) 
=P(rz+Y <z|X=7) 
= Plr+i+Y < 2z) 
= PlY <z—7), 





其 中 第 三 个 等 式 是 由 于 了 和 了 的 独立 性 .两 边 进行 微 商 , 可 得 所 需 的 结果 . 
(b) 对 于 0<z zs， 我们 有 





fxlz(7|2) = ey > fz(z) 
四 Ae— :7T) Xe 一 AT 四 Ne 
za zz 


由 上 述 表达 式 可 知 ， 对 国定 的 z ,作为 x 的 函数 xizfzla) 在 0<z< > 是 一 个 常数 ， 
而 在 区 间 ,3 外 ， fxlz(z|5) 显然 为 0. 这 样 的 条 件 分 布 是 [0,?] 上 的 均匀 分 布 , 即 了 
的 条 件 概率 密度 函数 fxlz(7|3) =1/2,z [0,4 











(c) 我 们 有 
f [ z| z) = fy(z> a T)fx(2) 1 1 e—(2—7)? /20y 1 @-—T /2cz 
Ms fz(2) ~ fz(z ) 270y V2Tor 


我 们 将 注意 力 集 中 在 指数 的 寡 上 ， 其 负 部 按 x 配 成 平方 ， 得 到 























这 样 ，X 的 条 件 密度 函数 具有 形式 








xlztz|z) = clz) exp 


Ti 
Se 
9 

He + 
< 9 
必 to 
Co \ 
| 
9 
bto| 
a 
t+ | 
9 
by 
Www 
hi 
Ne— 








其 中 ctz) 不 依赖 于 x ,ctz) 在 概率 密度 函数 中 是 一 个 归 一 化 的 平衡 常数 ， 这 样 , 条 件 
分 布 是 正 态 分 布 ， 均 值 


方差 


ELX 





var[X|Z = z] = 


7 一 z| 二 一 一 一世 
时 时 一- 旋 


2 





2 2 
0z 十 0y 


第 4 章 随机 变量 的 深入 内 容 


本 章 引 入 一 些 更 深入 的 内 容 ， 我 们 介绍 如 下 一 些 有 用 的 方法 : 

(a) 推导 出 关于 一 个 或 者 多 个 随机 变量 的 函数 的 分 布 ; 

(b) 处 理 独 立 随 机 变量 和 的 问题 ， 包 括 求 和 的 随机 变量 的 个 数 自身 也 是 随机 的 情形 ; 
(c) 量化 两 个 随机 变量 之 间 的 相依 程度 . 


为 实现 这 些 目标 ， 我 们 介绍 了 一 些 工具 ， 包 括 矩 母 函 数 和 卷 积 , 并 且 我 们 将 细 化 对 条 件 
期 望 概念 的 理解 . 


学 习 第 5 7 章 时 ， 并 不 需要 本 章 内 容 作为 基 s 础 ， 因 此 , 在 首次 阅读 本 书 时 可 将 本 章 视 为 
选读 内 容 ， 然 而 , 这 里 讨论 的 很 多 概念 和 方法 为 概率 论 和 随机 过 程 提供 了 更 深入 的 研究 
背景 , 并 为 应 用 概率 论 和 随机 过 程 的 其 他 学 科 提 供 了 有 力 的 工具 .但 是 , 4. 2 节 和 4. 3 贡 
所 提 到 的 概念 ， 是 第 8 章 和 第 9 章 中 学 习 统 计 推 类 的 准备 知识 . 
























































4.1 随机 变量 函数 的 概率 密度 函数 

本 节 考 虑 连续 随机 变量 了 的 函数 Y = 9(X) 的 概率 密度 函数 , 即 在 已 知 在 的 概率 密度 
函数 (PDF) 的 情况 下 ， 我 们 计算 的 PDF( 也 称 为 导出 的 密度 函数 ) 主要 考虑 如 下 的 两 
步 方 法 

计算 连续 随机 变量 了 的 函数 9g(X) 的 概率 密度 函数 (PDP) 


(1) 使 用 如 下 公式 计算 了 的 概率 函数 (CDF) Fy 





Fy(y) = Plg(X) <y)= / fxlz)dz. 
v {TIg9(7)<y} 


(2) 对 Fy 求 导 ， 得 到 了 的 PDF: 


dFy, 


a (Vy). 
例 4.1 设 了 服从 [0,1] 上 的 均匀 分 布 令 Y = VX.， 注意 , 对 任意 的 YE [0, 世 有 


Fy(y) =P(Y <Y) =P(VX <Y) =P(X <¥)=%. 
y y y y)=Y 


fyly) = 





求 导 ， 可 以 得 到 


1FY- 1(?) 
fy = (y= 2y, 0<y<1. 
dy dy 


在 区 间 [0, 1] 之 外 ， 分 布 函 数 Fy(y) 是 个 常数 ， 即 当 y<0 时 Fy(W) =0， 而 当 y>1 
时 By(y) =1， 所 以 , 求 导 可 以 得 到 ; 当 yl0, 导 时 fy(W =0 


例 4.2 上 庄 驶 悠 驾车 匀速 从 波士顿 前 往 纽约 ， 两 地 距离 为 180 英 里 ， 速 度 值 服从 
[30, 60] (单位 :英里 /小 时 ) 区间 内 的 均匀 分 布 ， 求 这 段 旅程 所 费时 间 的 PDF? 


设 了 是 速度 ，Y = gl 六 ) 是 这 段 旅程 所 花费 的 时 间 : 











180 
X 


根据 两 步 法 ， 首 先 计 算 了 的 分 布 函 数 ， 


| 180 180 
PL 和 0j 寺 吐 ( <y) 二 PP (> <x). 
X y 


利用 了 的 均匀 分 布 性 质 ， 即 





1/30， 看 30 过 了 委 60， 


fx(7) = 
0， 其 他 ， 
以 及 相应 的 分 布 函数 
0， 若 zw 志 30， 
Rr(zj= < (v30W350， 天 有 0 有 & 世 60; 
, 者 天 区 
因此 
180 
Py) = P (二 < 大 | 
= 和 -和 ( 训 ) 
vy 
0， 若 y < 180/60,， 
= 41-— (过 二 50) /30， 若 180/60 < vy < 180/30， 
若 y > 180/30 
0， 者 y<<3, 
= 42-6/y， 者 3<y<g6, 
l; 若 y 之 6 


( 见 图 4. 1). 然后 ， 对 上 式 进 行 求 导 ， 得 到 了 的 概率 密度 函数 : 





CDF Fy(y) 





3 6 2 


图 4.1 例 4.2 中 》= 130/X 的 概率 密度 函数 的 计算 过 程 示意 图 ， 箭 头 方向 表示 计 


算 步骤 


例 4.3 设 了 是 一 个 随机 变量 ， 其 概率 密度 函数 已 知 ， 现 求 Y= glX) = X” 的 概率 
密度 函数 ， 对 任意 的 y 0, 


Fy(y) = PIY 莹 切 





= P(X?<y) 
= P(—-Vy<X< vy) 
= Fx(VY)— Fx(—Y), 





因此 ， 对 上 式 进 行 微分 ， 运 用 复合 函数 求 导 方 法 ， 
1 


1 
fy(y) = a7 (VY 十 2 (VY y 二 0. 


4.1.1 线性 函数 


现在 我 们 重点 介绍 一 类 重要 和 特殊 的 情形 : 了 是 了 的 线性 函数 .如 图 4. 2 中 的 解释 , 从 
直观 就 可 以 得 到 我 们 所 需 的 结论 


























图 4.2 用 了 的 概率 密度 函数 来 表示 线性 函数 af + 5 的 概率 密度 函数 ， 图 中 a = 
2、b = 5. 为 了 直观 ， 第 一 步 ， 计 算 ay 的 概率 密度 函数 ，a7 的 值 域 比 X 的 值 域 

大 ， 倍 数 为 a” 所 以 ，al 的 概率 密度 函数 fy 是 将 了 的 概率 密度 函数 六 在 x 轴 
的 方向 上 拉 长 a 倍 ， 但是， 为 了 使 得 af 的 概率 密度 函数 fy 之 下 围 成 的 面积 是 

1， 必 须 将 方 纵 轴 下 拉 到 原来 的 1/a， 随 机 变量 af + 5 与 af 一样， 只 是 将 图 形 
水 平平 移 bp 因此 ， 我 们 首先 得 到 af 的 概率 密度 函数 ， 然 后 水 平平 移 bp， 最 后 得 
到 的 就 是 随机 变量 了 = af + b 的 概率 密度 函数 ， 写 成 公式 ， 就 是 


1 y—b 
fy) = 一 fx | 
|a| a 


如 果 a 是 负数 ， 方 法 是 一 样 的 , 只 是 先 将 了 的 概率 密度 函数 在 横 轴 进行 反射 ， 得 到 
人 -x， 然 后 , 在 横 轴 和 纵 轴 上 分 别 乘 以 |al 和 1/|a|, 就 得 到 -lo 六 二 aX 的 概率 密度 
函数 ， 最 后 水 平平 移 b, 就 得 到 aX + 的 概率 密度 函数 


随机 变量 了 的 线性 函数 的 概率 密度 函数 . 
假设 了 是 连续 随机 变量 ， 概 率 密 度 函 数 为 jx, a 和 2 是 实数 且 & 夫 0， 如 果 
Y =aX+b, 


—b 
把 = 癌 ， he (天 ) . 


0 \ 式 ， 我 们 首先 计算 了 的 分 布 函数 ， 然 后 求 导 . 只 证 明 a > 0 的 情形 ， 
-0 时 的 证 明 类 似 . 











则 











Fy(ly)= PIY <y) 
= PlaX 十 <y) 


= 下 (x < 二 
a 
Fy ( = ) 
a 
对 上 述 等 式微 分 ， 运 用 复合 函数 求 导 方法 ， 可 得 
,AP 1 y—b 
fy) = — (= -fx | |). 
dy 


例 4. 4( 指 数 随机 变量 的 线性 函数 ) 假设 随机 变量 服从 参数 为 A 的 指数 分 布 , 概 
率 密度 函数 为 





ke Ws hl 
0， 其 他 ， 


其 中 入 是 正 的 参数 .定义 Y=aX+b， 则 


fx(7x) = 


三 -有 
户 执 = 1 na 
0， 其 他 . 


注意 ， 当 所 0 且 a>0 时 了 仍然 服从 指数 分 布 ,参数 为 和 a， 一 般 而 言 ， 了 可 能 不 是 
指数 的 ， 比 如 ， 当 a <0 且 折 0 时 了 的 取 值 空间 在 负 实 轴 上 . 


例 4. 5( 正 态 随机 变量 的 线性 函数 ) ”假设 随机 变量 了 服从 均值 为 4 方差 为 o? 的 正 
态 分 布 , 相应 的 概率 密度 函数 为 








1 
V2ro 


定义 Y=aX+b 其 中 a 和 4b 是 实数 日 4 才 0 则 


, 1 一 吃 
户 切 = fx (2 
|a| a 


二 一 一 二 一 € 





| \2 /np 2 
一 ( 工 一 六 /2 


jx(zZ) = 


€ 














这 是 均值 为 op + 方差 为 eo? 的 下 碟 分 布 的 概率 密度 函数 , 所 以 随机 变量 了 是 正 态 

4.1.2 单调 函数 

线 t 生 函 数 的 概率 密度 函数 的 计算 方法 和 公式 可 以 推 到 e 是 音调 函数 的 情形 . 假设 是 
续 随 机 变量 ， 且 取 值 空间 在 一 个 给 定 的 区 间 里， 即 当 T&T 时 fx(z) =0 现在 

de es 

(a) 严格 单调 递增 ;对 任意 的 zz ET 满足 z < xz， 则 g(z) < g(z); 

(b) 严格 单调 递减 : 对 任意 的 rm EL 满足 z <z， 则 gfz) > g(z). 


ee 假设 8 是 可 微 的 ， 它 的 导数 在 递增 情形 时 是 非 负 的 , 在 递减 情形 时 是 非 正 


严格 单调 函数 的 一 个 重要 性 质 是 它 是 “可 逆 的 ”， 也 就 是 说 , 存在 函数 如 称 为 g 的 
逆 ， 使 得 对 任意 的 z€E I， 有 


y 二 gtz) 当 且 仅 当 z= hl(y). 


比如 说 , 例 4. 2 中 考虑 的 函数 gz) = 180/z 的 逆 就 是 凡人 ) = 180/ 这 是 因为 ，Y = 180/7 
当 且 仅 当 = 180/y. 其 他 例子 ， 比 如 






































, —1{ 
glzT) =ar+t+b, hly)= 


其 中 a 和 2 是 实数 ， 且 “ 关 0. 可 逆 函 数 的 例子 还 有 
glz) =e™, hly)= ee 


其 中 a 是 非 零 实数 . 
对 于 严格 单调 函数 g， 使 用 如 下 方便 的 公式 来 计算 = gl 六) 的 概率 密度 函数 . 
连续 随机 变量 了 的 严格 单调 函数 了 = glX) 的 概率 密度 函数 计算 公式 
假设 g 是 严格 单调 函数 ， 其 逆 函 数 4 满足 : 对 工 的 取 值 空间 内 任意 一 点 马 
y 三 gtz) 当 且 仅 当 7= hly)， 
且 函 数 六 是 可 微 的 ， 则 了 在 支撑 集 {yfY() > 0} 内 的 概率 密度 函数 是 











， 加 dh 
frly) = fx lh(y)) 全 . 
dy 


现在 证 明 上 式 . 假设 g 是 严格 递增 函数 ， 则 


Fyly) = Plg(X) <y) = P(X <h(y)) = Fx(h(y)), 


其 中 第 二 个 等 式 运 用 了 函数 g 的 严格 递增 性 〈 见 图 4. 3). 对 上 式 进行 微分 , 并 运用 复 
合 函 数 微分 公式 ， 我 们 可 以 得 到 


lh 


= fx(h(y))—(y). 


fyly) = 
3 


dFy 
wy 
因为 g 是 严格 递增 时 ， 函 数 4 也 是 严格 递增 的 ， 所 以 它 的 导数 是 非 负 的 : 


dn | 
—(y) 
dy 


dh (y) = 
dy y 





这 样 ， 就 验证 了 单调 递增 函数 g 的 概率 密度 函数 公式 . 当 8 是 单调 递减 时 ， 推 导 过 程 
是 类 似 的 : 





Fyly) = P(g(X) <y)= P(X>hy))=1— Fx(h(y)), 


对 上 式 进 行 微分 ， 并 运用 复合 函数 微分 公式 就 可 以 证 得 . 


y= DW 





h(y) 
事件 {X 和 六 人 } 事件 { 民 全 从 纺 } 
图 4. 3 计算 概率 Ply(X) 三 切 . 当 g 是 严格 递增 的 ( 左 图 ) ， 事 件 {9( 六 ) < 让 与 事件 
区 是 一 样 的 。 当 是 严格 道成 的 右 图)， 事 件 {0(X] < 本 与 事件 
二 hly 一 样 的 


例 4. 2( 续 ) 我们 将 上 述 公 式 ， 应 用 于 例 4.2. 在 区 间 zs [30,60] 内 ，A = 180/y， 所 
以 


dh 
dy 


所 以 , 当 y& ,6| 时 ， 运 用 概率 密度 函数 计算 公式 可 以 得 到 


180 
了 





天 过 1 
fxlhly)) = 30， 





|- 


Ah jh) dh | 1 180 6 
r 一 fx{hl 一 一 二 一 -一 一 一 一- 
fr(y) = fxlhly dy 0 


这 个 结果 与 例 4. 2 中 得 到 的 结论 是 一 样 的 . 


例 4.6 定义 =g(X)= 六 ， 其 中 了 服从 0,1] 区 间 的 均匀 分 布 . 在 这 个 区 间 里 ，& 
是 严格 递增 函数 ， 它 的 逆 函 数 是 MW) = Vy. 对 任意 的 YE (0, 贡 有 





fx(VY) =1, el] = = 
dy 2Vy 
所 以 
~- ， 落 we (0,1] 
9 “三 ) 1 4 ) -| )， 
KD = 29 
0， 其 他 . 














最 后 值得 注意 的 是 , 知 用 随机 变量 落 入 小 区 间 的 概率 来 解释 概率 密度 函数 的 意义 , 概率 
密度 函数 计算 公式 变 得 十 分 直观 ( 见 图 4. 4 的 解释 ). 


y 






x g(2) 


|y, y++ 62| 


| 多 2 十 01| 


图 4.4 对 e 是 严格 递增 函数 时 ，J(X) 的 概率 密度 函数 公式 的 解释 . 考虑 区 间 
[zz ++51, 其 中 而 是 非常 小 的 正 数 . 在 映射 g 下 ， 该 区 间 映 射 到 另 一 个 区 间 以 y+ 串 
因为 (dg/d7)(z) 是 8 在 点 x 处 的 斜率 ， 所 以 


用 逆 函 数 来 表述 ， 就 是 


注意 ， 事 件 {7 < 六 <z+ 抽 } 与 事件 包 <Y<y+ 吕 } 是 同一 事件 ， 所 以 
fy ly)5s 祝 Ply < 到 < YT 02) = Plz < XxX < IT 十 01) fxlr)dl. 
将 5 移 到 公式 的 左 端 ， 并 利用 比率 52/51 的 结论 , 就 可 以 得 到 
fy(W) 2() = fx(z). 


也 可 以 将 史 移 到 公式 的 右 端 , 并 利用 比率 和 1/52 的 结论 ， 就 可 以 得 到 


et Fo 
户 ( 切 = 一 ( 功 . 
dy 


4.1.3 两 个 随机 变量 的 函数 

和 一 个 随机 变量 的 情形 一 样 ， 我 们 采用 两 步 法 ， 先 计算 分 布 函数 , 然后 微分 得 到 概率 密 
度 函 数 

例 4.7 在 两 个 射手 射击 同一 目标 的 游戏 中 ， 假 定 每 个 射手 的 弹 着 点 与 目标 中 心 的 距 


离 服从 [0, 1] 上 的 均匀 分 布 , 而 且 彼此 相互 独立 问 失败 者 的 弹 着 点 离 目标 中 心 距离 的 概 
率 密度 函数 是 什么 ? 


设 XY 和 了 分 别 是 第 一 个 和 第 二 个 射手 的 弹 着 点 离 目 标 中 心 的 距离 . 令 2 是 失败 者 的 
弹 着 点 离 目 标 中 心 的 距离 ， 则 











Z = max{X,Y}. 
我 们 知道 了 和 了 都 服从 [0, 1] 上 的 均匀 分 布 ， 所 以 对 任意 的 >& [0,11 我们 有 
PX<Z}=PY <2)=2. 
利用 了 和 了 的 独立 性 ， 对 任意 的 2& [0,1 我们 有 


Pz(z)} = P(Z < 2z) 
=PIX YZ) 
= P(X < z)PlY < 2) 
2 


经 过 微分 可 得 


例 4.8 假设 随机 变量 和 了 都 服从 区 间 [0, 1] 的 均匀 分 布 , 而 且 彼此 相互 独立 ， 问 
随机 变量 2 = Y/X 的 概率 密度 函数 是 什么 ? 


我 们 还 是 根据 两 步 法 先 计 算 2 的 分 布 函数 , 然后 微分 得 出 它 的 概率 密度 函数 ， 在 计算 
tl 0 0zzzl 和 z>1) 分 别处 理 如 图 4.5 所 示 ， 我 们 可 以 得 
到 








寻访 大 z € [0,1]， 
Fz(z)=P (3 < = 一 441 一 1/(22)， 者 2>1， 
0， 其 他 . 
将 Fz(2) 微分 ， 可 得 
1/2, 者 z € [0,1]， 
fel = 有 1 者 
0 其 他 . 
y 1 





图 4.5 计算 例 4. 8 中 Z =Y/X 的 概率 密度 函数 . 概率 P(Y/X < <) 等 于 单位 正方 形 
内 阴影 部 分 的 面积 ， 左 图 处 理 0 < > < 1 情形 下 的 概率 ， 右 图 处 理 * > 1 情形 下 的 概 


率 


例 4.9 罗密欧 和 朱丽叶 定期 约会 , 他 们 每 个 人 每 次 到 达 约 会 地 点 时 都 会 离 约定 的 时 间 
有 延迟 , 而 且 他 们 的 延迟 时 间 是 彼此 相互 独立 的 ， 假定 延 迟 的 时 间 都 服从 指数 分 布 , 参 
数 为 入 那么 他 们 到 达 约 会 地 点 的 时 间 差 具有 什么 样 的 概率 密度 函数 ? 


记 了 和 了 分 别 是 罗密欧 和 朱丽叶 约会 时 到 达 的 时 间 (假定 约会 时 刻 为 0). 我 们 的 目标 
是 计算 Z = XX 一 Y 的 概率 密度 函数 .由 假设 可 知 了 和 了 都 是 服从 参数 为 和 的 指数 
分 布 . 我 们 先 计 算 分 布 函数 fz(*)， 分 两 种 情况 >> 0 和 z <0 来 讨论 ， 见 图 4. 6. 
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图 4.6 计算 例 4.9 中 Z = 和 -TY 的 分 布 函数 . 为 了 求 出 概率 P(X - 工 > 3), 必须 对 联 
合 概率 密度 函数 fxX.Yl7T,y) 进行 积分 , 积分 区 域 如 图 中 的 阴影 部 分 所 示 . 左 图 处 理 
:二 0 的 情形 ， 右 图 处 理 > <0 的 情形 

当 z 二 0 ( 见 图 4. 6 的 左 图 ) 


Fz(z)= PIX 一 站 莹 2 一 1 一 PIX 一 了 > 2) 


一 1 一/ yf fxYlz,y)dr 
J0 Jz+y 
1— | "eay / Me dz 
J0 J 2+y 


00 , 
一/ 和 Xe "Ye :ty dy 


0 
0 
eh 一 2X1 
一 1 一 e Me ydyy 
J0 
1 

—As 
一 一 一 e 

2 


4 z < 0， 我 们 可 以 使 用 类 似 的 计算 方法 ， 但 是 也 可 以 利用 对 称 性 ， 实 际 上 , 由 对 称 性 
可 知 ， 随 机 变量 Z=X-TY 与 ~-Z =Y 一 XX 的 分 布 是 相同 的 . 所 以 


Fz(z)=P(Z <z)=P(-Z>—z2)=P(Z >—2)=1— Fz(—z). 


当 z <0 时 ，-z >0， 所 以 可 以 使 用 已 经 推导 出 来 的 公式 得 到 




















1 1 、. 
FI2z) 一 1 一 Fz( 一 2 一 1 ( 9) a 


综合 :> 0 和 : < 0 两 种 情况 ， 我 们 得 到 


由 
一 


2 
Fz(2)= 4] 
村 着 名 之 了 0, 
py 
对 分 布 函 数 进行 微分 ， 可 以 得 到 概率 密度 函数 ， 即 
A 和 A 
ne 下 
fz(%) 和 
入 之 


一 Ge ， 和 可 过 秆 
这 就 是 著名 的 双边 指数 概率 密度 函数 , 也 称 为 拉 普 拉 斯 概率 密度 函数 . 


4.1.4 独立 随机 变量 和 一 一 卷 积 


设 XY 和 了 是 两 个 独立 的 随机 变量 ， 考 虑 它们 的 和 Z = 和 +TY 的 分 布 ， 首 先 , 我 们 推 
导 当 了 和 了 都 是 离散 的 情况 下 2 的 分 布 列 . 


Ea 了 是 仅 取 整数 值 的 独立 随机 变量 , 它们 的 分 布 列 分 别 为 Px 和 py.， 则 对 于 任 
局、 2 





pz(z) = P(X+Y =2) 
= 》 P(X=s5,Y = 
{(z,y)|r+y=2} 
= 》 P(X =7,Y=z— 71) 
》 px(z)pyr(z 一 工 ). 





得 到 的 分 布 列 Pz 称 为 了 和 了 的 分 布 列 的 卷 积 . 关于 卷 积 的 直观 意义 见 图 4. 7 的 说 明 . 





图 4.7 X+Y ==3 时 对 应 的 概率 pz(3) 是 所 有 满足 ++y=3 的 (z, 妇 出 现 的 概率 
之 和 ， 图 中 标 出 了 这 些 点 . 这 类 点 的 概率 计算 公式 如 下 ; 


pxYylrT,3—7)= pxlr)py(3— 7) 
现在 我 们 假设 了 和 了 为 独立 的 连续 随机 变量 , 它们 的 概率 密度 函数 分 别 为 fx 和 序 . 我 


们 希望 求 出 Z = 六 + 的 概率 密度 函数 ， 为 此 , 我 们 首先 求 出 了 和 2 的 联合 概率 密 
度 函 数 ， 然 后 通过 积分 求 出 2 的 概率 密度 函数 . 





首先 注意 到 ， 

P(Z <z|X =7)= P(X+Y <z|X=7) 
= P(r+Y <z|X=7) 
= 
= PlY <z— 77), 


第 三 个 等 号 由 不 和 的 独立 性 所 致 ， 两 边 同时 取 z 的 微分 ， 可 知 
fzix(z|?) = 方 (一 中 利用 乘法 法 则 ， 有 


fx,z(7,2) = Jxtzjjfzlxlzlz) = xzjPrtz 一 Th)， 


最 后 由 上 式 可 推 得 





fzlz) = 过 Fxzlzr,zjdr = / fxlr)fylz— rz)dr. 


这 个 公式 和 离散 情况 下 的 公式 是 完全 类 似 的 ， 只 是 用 积分 蔡 代 了 求 和 , 用 概率 密度 函数 
代 蔡 了 分 布 列 ， 图 4. 8 给 出 了 这 个 公式 的 一 个 直观 理解 . 





ZX 十 1 一 2 


图 4.8 Ee Ee th dhe 7). a > 0, 图 中 
带 形 区 域 所 代表 的 事件 发 生 的 概率 就 是 Pl2 六 +Y 2+5) fz(3) .于 是 ， 


fz(2)6 = Pl(z<X+Y<z+0) 
/ | fxlr)fyly}dydr 
写 FxizZljPhrz 一 TI)6dz. 


去 掉 上 式 左右 两 边 的 5 即 得 所 求 公 式 


例 4.10 设 随机 变量 和 了 相互 独立 并 且 都 服从 区 间 [0, 1] 上 的 均匀 分 布 ， 按 独立 
随机 变量 之 和 的 密度 公式 ,变量 Z=X+TY 的 概率 密度 函数 为 





fz(z) = | fx(z)fy(z — zdz. 


被 积 函 数 fx(D)fylz 一 7) 当 0<zz1l 且 0<z 一 T<1 时 是 非 零 的 (实际 上 等 于 1). 将 
这 两 个 不 等 式 联合 起 来 ， 被 积 函数 当 max{0, > 一 7 < min{1,2} 时 非 零 .因此 ， 





min{1,z} — max{0,z—1}, 0<z<2, 
0， 其 他 情况 . 


如 图 4. 9 所 示 ，jzl>) 的 图 像 像 个 三 角形 的 尖顶 


fz(z) = 





图 4. 9 两 个 独立 的 [0, 1] 上 均匀 分 布 随机 变量 的 和 的 概率 密度 函数 
下 面 我 们 给 出 卷 积 公式 的 一 个 重要 的 应 用 . 
例 4. 11 (相互 独立 正 态 随机 变量 之 和 的 分 布 ) 设 随机 变量 了 和 了 相互 独立 , 服从 均 


值 分 别 为 nz 和 ty、 方差 分 别 为 cz 和 % 的 正 态 分 布 ， 定 义 Z = XX+Y. 由 卷 积 公 
式 ， 可 得 


eT (rT — pz) 1 (z—z— py) 
fzlz) = exp | 一 - . ——exp | 一 一 一 一 he) dz. 
2 pi 9~2 pr 5 
Ja VY 20 ZOr Vv 270y 202 


上 式 中 的 积分 有 明确 的 表达 式 ， 但 是 细节 比较 麻烦 ， 所 以 在 此 省 略 . 最 后 的 结论 


1 { z 一 i-— 1 )2 
jz- -二 em (A ) 
V 2r(az 十 0 】 2{07 一 oy) 


| kz 二 js 方差 为 “zy 的 正 态 分 布 的 概率 密度 函数 ， 所 以 可 以 得 出 结 

: 两 个 独立 正 态 随机 变量 之 和 仍然 是 正 态 的 . 正 态 随机 变量 的 线性 函数 仍然 是 正 态 的 
作风 5), 可 以 推出 对 于 任何 非 零 常数 a 和 b,aX +bY 也 是 正 态 的 . 在 4. 4 节 里 会 
使 用 矩 母 函 数 的 方法 来 讨论 本 题 的 派生 问题 . 


例 4. 12( 两 独立 随机 变量 之 差 ) ” 卷 积 公式 也 可 以 用 于 计算 五 了 WU 其 
中 了 和 了 是 相互 独立 的 . 方法 是 将 天 节 看 成 是 了 与 -了 的 和 . 注意 , -上 的 概率 密 
度 函 数 是 f_-Y() = 产 ( 一 轨 ， 从 而 
































Fr Zz) = / fxlr)f_ylz 一 Tjdrz = / fxlr)}fylz — z)dz. 


现在 设 了 和 了 相互 独立 ， 且 都 服从 参数 为 的 指数 分 布 ( 见 例 4.9). 对 任意 > 二 由 
注意 到 只 有 当 z 二 > 时 ，frY(7 一 2) 才 非 零 , 所 以 


fx-_Y(z) = / fxlzT)fylz — z)dr 


这 与 例 4.9 得 到 的 结论 是 一 致 的 ， 当 z 《< 0 时 ， 可 以 使 用 相同 的 方法 ， 只 需 注 意 到 
fx-y(z) = fy-x(z) = f_-(x_Y)(z) = fx-Y(—2z). 

上 式 中 第 一 个 等 式 是 因为 了 与 了 同 分 布 ， 因 而 X ~Y 的 分 布 具 有 对 称 性 . 

使 用 卷 积 公式 时 ， 最 关键 的 步骤 是 要 确定 正确 的 积分 限 ， 但 是 这 通常 是 繁琐 是 易 错 的 ， 

但 是 可 以 利用 下 面 将 要 介绍 的 图 像 法 加 以 避免 

4.1.5 卷 积 的 图 像 计 算法 


我 们 使 用 一 个 旺 变 量 t 作为 本 节 涉 及 的 不 同 函数 的 自 变 量 ， 见 图 4. 10. 考虑 两 个 概率 
密度 函数 fxlt) 和 rl(W)， 给 定 z 一 个 值 , 计算 卷 积 



































fz(z) = / fxlt}fylz — tdt 


的 图 像 表 达 包 括 如 下 步 又 . 








图 4. 10 卷 积 计算 的 描述 . 对 于 考虑 中 的 z 的 值 , 7z!z) 与 最 后 一 幅 图 中 所 示 的 函数 
的 积分 相等 


(a) 画 出 六 (一 攻关 于 上 的 函数 图 像 . 这 个 图 像 和 函数 i(t) 的 图 像 的 形状 完全 类 
似 ， 除 了 一 点 不 同 : 它 是 先 “翻转 ”然后 平移 一 个 z 的 量 ， 如果 > > 0， 向 右 平移 ; 
如 果 > < 0， 疝 左 平移 . 

(pb) 将 fx 和 序 (2 一切 的 图 像 放 在 彼此 上 面 ， 制 作出 它们 的 乘积 . 

(c) 通过 计算 乘积 函数 的 积分 得 到 fz(2) 的 值 . 

通过 变化 z 的 量 ， 即 平移 的 量 ， 就 可 得 到 取 任 何 z 时 的 fz(2). 








4.2 协 方才 和 相关 


本 节 介 绍 如 何 量化 两 个 随机 变量 之 间 关 系 的 大 小 和 方向 ， 该 内 容 非 常 重 要 , 将 应 用 于 在 
第 8 章 和 第 9 章 的 估计 方法 


了 和 了 的 协 方差 记 为 cov(X, 六, 其 定义 如 下 : 
cov(X,Y) = E[(X — E[X])(Y — E[Y])]. 
当 cov(X, 了 =0 时 ， 我 们 说 了 和 了 是 不 相关 的 . 


粗略 地 说 ， 一 个 正 或 者 负 的 协 方差 表示 在 一 个 试验 中 的 六 一 EIX] 和 一 EIY] 的 
值 “ 趋 向 ”有 相同 或 者 相反 的 符号 〈 见 图 4. 11). 因此 , 协 方差 的 符号 提供 了 一 个 了 和 
了 之 间 关 系 的 重要 定量 指标 . 


2 4 



































(a) (b) 


图 4.11 正 相 关 随 机 变量 和 负 相 关 随机 变量 的 例子 . 这 里 (X,Y) 在 图 中 所 示 的 椭圆 
中 均匀 分 布 . 在 情况 (a) 中 covtX,Y) 是 正 值 ， 在 情况 (b) 中 是 负 值 


协 方差 的 另 一 种 表达 为 
cov(X,Y) = E[XY] — E[X]E[Y), 









































通过 简单 运算 就 可 证 明 这 个 等 式 . 丛 协 方差 的 定义 出 发， 我 们 还 可 以 推导 出 协 方差 的 一 
些 性 质 : 天 任意 的 随机 变量 不 及 2 以 及 任意 实数 e 和 饭 
cov(X,X)= varlX). 
cov(X.aY 十 上 一 a:!cov(X.Y). 
cov(X,Y+2Z2)= cov(X,.Y)+cov(X,2Z). 
要 提醒 注意 的 是 下 面 的 事实 : 如果 了 和 了 是 相互 独立 的 ， 则 EX 站 = EL[X]EIY], 即 
有 covlX,Y 了 ==0。， 因此 ,如果 了 和 了 是 相互 独立 的 ， 它 们 是 不 相关 的 .但 是 ， 首 命题 


不 成 并 , 见 下 例 . 


例 4.13 设 随 机 变量 对 (XX, 了) 分 别 以 1/4 的 概率 取 值 于 (1, 0)、 Ey 1) 、(-1 0)、 

(0， ( 见 图 4. 12). 因此 ，X 和 了 的 边缘 分 布 列 都 关于 0 对 称 ， E[X] = E[Y] =0. 更 

A Le lz,y) 可 能 取 到 的 任何 值 ，x 和 y 中 总 有 一 个 为 0， J XY=0 有 8 
因此 


cov(X,Y) = E[XY] — E[X]E[Y] = 0， 


部 也 和 了 不 相关 。 但是， 了 和 了 不 是 独立 的 ， 因 为, 例如 取 非 零 信 时 就 要 求 
取 零 值 








图 4.12 例 4.13 中 了 和 了 的 联合 分 布 列 .图 中 所 示 的 四 个 点 中 每 个 点 的 出 现 概 率 
都 为 1/4. 这 里 了 和 了 不 相关 但 是 却 不 是 独立 的 


这 个 例子 可 以 推广 出 一 个 一 般 的 结论 . 假设 了 和 了 满足 
EIXIY = 四 =EIX] 对 任意 的 了 成 立 ， 
则 如 果 了 和 了 是 离散 变量 时 ， 利 用 全 期 望 定理 可 以 得 到 
EI[XY] = ypY(y)ELX|Y = 


= E[X] 》 ypy(y) = E[X]E[Y), 


y 





这 样 了 和 了 是 不 相关 的 . 在 连续 的 情形 下 , 这 个 结论 仍然 成 立 . 
两 个 方差 非 零 的 随机 变量 XY 和 了 的 相关 系数 P(X,Y) 定义 如 下 : 


cov{ X.Y) 
var(X jvar(Y) 


( 当 了 和 了 在 上 下 文中 很 明显 时 可 使 用 简化 记号 P.) 它 可 视 为 协 方差 cov(X,Y) 的 
标准 化 . 且 事实 上 ， 可 证 明 P 取 值 于 -1 到 1 之 间 ( 见 章 末 习题 ). 


如 果 PpP>0(p<0)， 则 一 EI[X] 和 一 ElY] 的 值 趋向 同 号 ( 反 号 ), 且 |P| 的 大 小 反映 
了 趋向 程度 的 标准 度量 大 小 ， 事 实 上 , 总 可 以 假定 不 和 了 有 正 的 方差 ， 在 此 种 情况 
下 ， 可 以 证 明 p=1(p= 一 当 且 仅 当 存在 一 个 正 的 ( 负 的 ) 常数 c， 使 得 

Y — ElY] = c(X — E[X]) 
( 见 章 末 习题 )， 下 面 的 例子 部 分 地 解释 了 这 个 性 质 . 
例 4.14 考虑 一 个 硬币 的 2 次 独立 的 抛掷 ， 其 中 正面 朝 上 的 概率 是 p. 设 和 了 分 
别 是 正面 朝 上 和 反面 朝 上 的 次 数 ， 现 在 让 我 们 来 看 一 下 了 和 了 的 相关 系数 .这 里 ， 
我 们 总 有 X+Y =n 且 ER] 二 下 = 了 因此 

X—EX)=—(Y — EY)). 


我 们 将 计算 和 了 的 相关 系数 ， 证 明 它 确实 等 于 -1. 


p(X,Y)= 
































我 们 有 
cov(X,Y) =E[(X -ELX)(Y — EIY])| 
=-E|(X — ELX])" 
王 -一 vaEA 
因此 ， 相 关系 数 为 
所 


varlX }varlY’) varlX )varlX) 





随机 变量 和 的 方差 


协 方差 可 以 用 于 计算 多 个 随机 变量 (不 必 独 立 ) 之 和 的 方差 ， 特 别 地 ， 设 随机 变量 
X1,… ,Xn 具有 有 限 的 方差 ， 则 


Var(X1+ X2) = var( Xi1) + var(X2) + 2cov(X1, Xo), 





更 一 般 的 结论 是 


i 一 1 {(2,7) i)} 





上 述 公式 可 以 如 下 推导 : 简 记 Xi = Xi 一 [Xi 





1 {()| 主 让 


i=1 


{(i) 放 让 


下 面 举 一 个 例子 来 运用 这 个 公式 . 


2_ EXN+ 2, ElXiX) 


Dvar(Xi) + > cov (Xi, Xj)). 





例 4.15 考虑 2. 5 节 中 讨论 的 帽子 问题 . 有 2 个 人 将 帽子 扔 进 








机 地 选 一 顶 帽子 . 


个 盒子 , 然后 每 人 随 





设 了 是 拿 到 自己 帽子 的 人 数 , 现在 计算 了 的 方差 . 设 Xi 表示 第 i 





个 人 是 否 拿 到 自己 帽子 的 随机 变量 ， 即 A = 1 表示 拿 到 了 自己 的 帽子 ， 否 则 Xi = 0. 


此 时 ， 

bE 5 二 。 
x 1)=- 
”“” ”““n 的 伯 努 利 分 布 ， 我 们 有 


ee 1 1 
var(Xi) 一 一 (4 一 . 
n n 
当 1 关 7 了 时 


cov(Xi, Xi;) = El[XiX;| — ELXi|EIX,| 


ee 一 ) 一 卫 
注意 ，Xi 服从 ?一 了 
E[Xi] = +, 


n 


一 [天 二 1 有 区 一刀 = 
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协 方差 和 相关 
。 了 和 了 的 协 方差 公 式 如 下 : 
cov(X,Y) = E(x — EIX]}(Y — EIY])| = E[XY] — E[X]E[Y]. 

。 如 果 cov(X, 六 ==0， 则 称 了 和 了 不 相关 . 
。 如果 了 和 了 是 独立 的 ， 则 它们 不 相关 ， 反 之 不 总 成 六 . 
。 两 变量 和 的 方差 公式 : 

var(X+Y)=varlX)+varlY)+ 2cov(X.,Y). 
。 具 有 正方 差 的 随机 变量 XY 和 了 的 相关 系数 p(X, 站 ) 定义 为 


cov(X.Y) 
var(X }varlY’) 











p(X,Y) = 





且 满 足 


A pl 


4.3 再 论 条 件 期 望 和 条 件 方差 


本 节 再 次 讨论 随机 变量 了 在 给 定 另 一 个 随机 变量 了 之 下 的 条 件 期 望 , 可 将 这 个 条 件 期 
望 看 成 依赖 于 了 的 函数 ， 因 而 是 随机 变量 . 我 们 将 导出 全 期 望 定 理 的 另 一 个 版 本 ， 称 
为 重 期 望 法 则 ， 用 通俗 的 语言 说 , 就 是 条 件 期 望 的 期 望 等 于 无 条 件 期 望 ， 同时， 我 们 也 
推导 全 方差 法 则 ， 该 法 则 涉及 条 件 方差 和 无 条 件 方差 . 


一 个 随机 变量 X 的 条 件 期 望 ELXIY = 引 的 值 ， 依 赖 于 了 的 值 y 因为 EIXIY = 要 

是 y 的 函数 ， 所 以 EIX| 站 是 了 的 函数 ,因此 也 成 为 一 个 随机 变量 ， 它 的 分 布依 赖 于 
7 的 分 布 ， 在 本 节 中 ,我们 研究 FIXIY] 的 期 望 和 方差 . 它 的 性 质 不 仅 在 本 章 很 重要 ， 
而 且 在 第 8 蔓 和 第 9 章 的 佑 计 和 统计 推断 中 也 特别 重要 . 


例 4. 16 假设 我 们 在 投掷 一 个 不 均匀 的 硬币， 正面 划 上 的 概率 ， 记 为 了 也 是 随机 的 . 
假定 正面 朝 上 的 概率 了 的 分 布 为 已 知 ， 它 是 [0, 1] 上 的 分 布 ， 现 在 我 们 投 撕 次 硬 
币 ， 定 义 了 为 正面 朝 上 的 总 次 数 . 由 于 对 任意 的 YE 0, 起 我 们 有 EIXIY = 要 =ny, 所 
以 EIX|Y] 是 随机 变量 nY. 


既然 PIX 站 是 一 个 随机 变量 ， 那 么 就 应 该 有 自己 的 期 望 EIEIX| 站 | 使 用 期 望 法 则 ， 
可 得 



































》 EI[XIY = gjpy(y)， YY 离散 ， 
EIEIXIY] = 4 的 。 
| EIX|Y = 应 (wdy，Y 连续 


右边 的 两 个 表达 式 在 第 2 章 和 第 3 章 中 都 非常 熟悉 ， 使 用 全 期 望 定理 , 它们 都 等 于 EIX] 
这 样 我 们 就 可 以 得 出 如 下 结论 : 不管 随 机 变量 了 是 离散 的 、 连 续 的 、 或 混合 的 , 只 要 
随机 变量 了 具有 有 限 的 期 望 EIX) 下 面 的 法 则 成 立 . 

重 期 望 法 则 : ”FEIELX|Y]] = ELX]. 
下 面 使 用 实例 来 说 明 如 何 运 用 重 期 望 法 则 来 计算 涉及 条 件 概率 的 问题 中 的 期 望 值 . 


例 4. 16( 续 ) ”假设 三 是 投掷 硬币 出 现 正面 的 概率 ( y 是 随机 变量 ! ), 7 的 分 布 是 
[0, 1] 上 的 均匀 分 布 ， 因 为 EX|Y] =nY， 且 ElY] = 1/2, 运用 重 期 望 法 则 ， 可 得 











E[X] = E[E[X|Y]] = EfnY] = nE[Y] = 
例 4.17 我 们 考虑 一 根 长 度 为 7 的 木 棍 ， 从 一 点 将 其 折断 , 这 点 是 随机 选择 的 ， 即 
这 个 点 的 分 布 是 在 整 条 木 棍 上 均匀 分 布 ， 折 断 以 后 , 留 下 含 木 棍 堪 端的 那 一 半 .， 我 们 接 
下 来 重复 以 上 步骤 .试问 在 折 两 次 之 后 剩 下 的 木 棍 长 度 的 期 望 是 多 少 ? 





记 了 为 第 一 次 折断 之 后 剩 下 的 木 棍 长 度 ， 了 为 第 二 次 折断 之 后 木 棍 剩 下 的 长 度 ， 我 们 
名 全 | 人 这 是 因为 断 点 是 在 剩 下 的 长 度 上 上 均匀 选择 .类 似 地 ， 有 
二 人 因此; 


E[X] = EIE[XIY]] =E = = 2 = 7 


例 4. 18 (全 班 平均 成 绩 与 分 组 平均 ) 一 个 班级 及 名 学 后. 学 生 7 的 测验 分 数 记 为 
zi， 已 知 班级 测验 的 平均 分 为 


现 将 全 部 学 生 分 成 & 个 互 不 相交 的 子 集 和 所,… ,4 (组 ). 我 们 记 ns 为 第 s 组 的 学 生 
数 ， 第 s 组 的 平均 分 数 为 





全 班 的 平均 分 数 可 以 用 每 组 的 平均 分 数 ms 的 加 权 平 均 来 计算 , 第 s 组 的 权重 正比 于 
为 该 组 的 学 生 数 , 即 权重 为 ns/m。 直 接 计 算 证 明 此 法 得 到 的 结果 是 正确 的 : 


大 大 
ns i | 

》 一休 1 = 》 一 一 》 TE 
nn nn ns 

s=] s 一 1 5 iEAs 


一 77. 


这 和 条 件 期 望 怎 样 联系 起 来 的 呢 ? 考虑 这 样 一 个 实验 . 随机 地 选择 一 位 学 生 ， 其 中 每 个 
学 生 被 选中 的 概率 是 1/n. 考虑 下 面 两 个 随机 变量 : 


义 = 被 选中 的 学 生 的 成 绩 ， 
Y= 被 选中 的 学 生 所 在 的 组 ”(Y e€ {1,.…. ,k}). 


所 以 
E[X|= m. 


事件 { = 5} 与 选中 的 学 生 属于 s 组 是 等 同 的 事件 . { = s 发 生 的 条 件 下 ， 
这 个 组 的 学 生 被 选中 的 概率 为 1/7s. 因此 ， 


个 伍 


从 


E[X|Y = s] = 一 bp Ti = ms. 
* ieAs 
一 个 随机 选中 的 学 生 属于 s 组 的 概率 为 ns/m， 即 PlY = 5)= ns/n. 因此 ， 
大 大 
m= ELX| = EIE[LX|Y]] = > E[X|Y = s|P(Y = s) = ms 
s=1 s=] 


因此 , 利用 组 平均 求全 班 平 均 成 绩 的 方法 可 视 为 重 期 望 法 则 的 一 种 特殊 情况 


例 4. 19 (预测 调 整 ) 记 了 为 公司 来 年 上 半期 的 销量 ， 了 为 全 年 销量 . 公司 已 经 建立 
销量 统计 模型 ， 所 以 了 和 了 的 联合 分 布 是 已 知 的 .在 年 初 ,期望 EIX] 可 以 作为 实际 
销量 了 的 一 种 预测 ， 在 年 度 中 期 时 ,上 半年 的 销量 已 经 实现 ， 因 此 随机 变量 了 已 知 . 
这 将 我 们 置 于 一 个 新 环境 中 ， 在 这 里 所 有 变量 都 依赖 于 了 基于 对 了 的 了 解 ， 公 司 建 
立 了 一 个 调整 后 的 年 度 销量 预测 ELX| 站 1 


根据 年 度 中 期 信息 ， 我 们 可 将 FIX| 症 一 EIX] 看 成 中 期 的 销量 预测 的 修正 值 ， 由 重 期 
望 法 则 可 知 : 











E[E[X|Y] — E[X]] = E[E[X|Y]] — ELX] = ELX] — ELX] = 0. 
这 意味 着 虽然 中 期 的 销量 预测 Wd Lm he SB 但 在 年 初 我 们 并 不 知道 上 半年 的 
销售 量 ， 只 能 把 销量 预测 的 修正 值 FIX| 站 一 EL[X] 看 成 一 个 随机 变量 . 概率 计算 说 明 
这 个 随机 变量 的 平均 值 为 0。 这 在 直观 上 是 十 分 合理 的 , 事实 上 ， 如 果 这 个 期 望 值 取 正 
值 ， 原 先 的 预报 在 最 初 就 应 该 更 高 . 


最 后 给 出 条 件 期 望 的 一 个 重要 性 质 ， 对 任意 给 定 的 函数 g, 均 有 
E[Xg(Y)IY] = g(Y)ELXIY]. 


0 在 给 定 了 的 条 件 下 ，9lY) 是 一 个 常数 , 所 以 可 以 从 期 望 中 提出 来 (见习 题 
25). 














4.3.1 条 件 期 望 作为 估计 量 


如 果 我 们 将 了 视 为 能 提供 关于 不 的 信息 的 观测 值 , 则 我 们 很 自然 地 将 条 件 期 望 作 为 给 
定 了 的 条 件 下 对 了 的 估计 ， 记 为 


X = EXIY]. 
这 样 ， 估 计 误 差 就 定义 为 

京王 大 一 天 
显然 估计 误差 也 是 随机 变量 ， 且 满足 


EIX|Y] = E[(X — X)|Y] = EI[X|Y] — E[XIY] =X—X=0. 


所 以 随机 变量 E[X|Y] 恒 为 0 对 任意 的 ”EIX|Y = 切 =0， 运 用 重 期 望 法 则 ， 还 可 以 


得 到 
E[X] = E[E[X|Y]] = 0. 
这 就 表明 估计 误差 没有 系统 性 的 正 或 负 的 偏 倚 . 


下 面 接着 证 明 六 具有 另 一 个 有 趣 的 性 质 :” 它 与 估计 误差 X 是 不 相关 的 .事实 上 ， 
运用 重 期 望 法 则 ， 可 得 


EI[XX] = EI[E[XX|Y]] = E[XE[X|Y]] = 0， 
最 后 两 个 等 式 成 立 的 原因 是 X 完全 由 了 确定 ， 所 以 


E[XX|Y] = XE[X|Y] = 0. 








从 而 
cov(X,X)= EXX]— ERX]EX]=0— EX):0=0, 
故 革 与 奈 是 不 相关 的 . 


基于 cov(X,X)= 0 这 个 结论 ， 又 注意 到 X = 广 + 训 ， 两 边 取 方 差 ， 我 们 可 以 得 到 








var(X) = varlX) + varlX). 


上 面 这 个 等 式 ， 可 以 表述 为 一 个 有 用 的 法 则 ， 下 面 我 们 开始 讨论 这 个 法 则 . 


4. 3.2 条 件 方差 
首先 介绍 随机 变量 





var(X|Y) = E[(X — E[X|Y])*|Y] = E[X?|Y]. 


这 是 一 个 关于 了 的 函数 ， 对 于 给 定 的 了 值 它 等 于 在 已 知 {Y = 外 的 条 件 下 ， 了 的 
条 件 方差 为 


var(X|Y =y) = E[X*|Y = . 
利用 结论 EIX] = 0 和 重 期 望 法 则 , 我 们 可 以 将 估计 误差 的 方差 写成 
var(X) = E[X’] = E[E[X?|Y]] = Elvar(X|Y)], 
所 以 等 式 var(X) = var(X)+var(X) 就 可 以 写 为 如 下 形式 . 
全 方差 法 则 :var(X) = Elvar(X|Y)] + var(E[X|Y]). 
下 面 举例 说 明 全 方差 法 则 对 计算 随机 变量 的 方差 非常 有 用 . 








例 4. 16( 续 ) ”我 们 还 是 考虑 2 次 投掷 一 枚 不 均匀 的 硬币 的 实验 . 设 上 了 是 投掷 硬币 正 
面 朝 上 的 概率 ， 服 从 [0, 可 区 间 的 均匀 分 布 .定义 了 为 n 次 投掷 硬币 正面 萌 上 的 总 次 
数 ， 则 对 任意 的 YE 00, 也 我们 有 EX = 让 =ny， 故 了 XI 说 =2Y， 且 

var(X|Y) = 二 nY(1 一 了 ) 所 以 
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Elvar(X|Y)] = EnY(1— Y)] = mn(EIY] — EIY™) 


2、 1 1 1 
= n(E[Y] ~— var(Y) — (E[Y]))=7n (3 一 一 一 1) 一 二 


再 有 


2 


ye T E Y pay T Y n 
varlE[X|Y]) = var(n = 


所 以 ， 运 用 全 方差 法 则 ， 我 们 有 


var(X) = Elvar( X|Y)| + varlE[X|Y|) = 6+ 
例 4.17( 续 ) ”重新 考虑 两 次 折断 木 棍 的 问题 ， 木 棍 原 长 1, 断 点 是 随机 选择 的 ， 了 是 第 
一 次 折断 后 剩 下 的 长 度 , 工 是 第 二 次 折断 后 剩 下 的 长 度 ， 我 们 已 经 计算 得 到 了 的 期 望 
为 1/4. 现在 运用 全 方差 法 则 来 计算 varlX). 


因为 了 服从 0 到 了 之 间 的 均匀 分 布 ， 得 








3 


varlX|Y) = 1 


因为 了 服从 0 到 1 之 间 的 均匀 分 布 ， 得 
Eivar(XIY)| = 12 = 工时 万 
站 a 


同时 E[X|Y] =Y/2， 所 以 


Spe ee et Ne 
-arli ’ = Var "/2 一 一 VaT es 
var(EIXIY]) = var(Y/2) = 2ar(Y)= 1" = 看 
根据 全 方差 法 则 , 得 
var(X) = Evar(X|Y)] +war(EIX 略 和 ?2 7 
rar 具 上 一 raTl- 十 Var 了 |- i 
/ \ ’ | 36 48 144 


例 4. 20( 学 生成 绩 的 方差 与 分 组 方差 ) 所 讨论 的 问题 背景 与 例 4 18 中 的 相同 , 我 们 重 
新 考虑 这 些 随机 变量 





学 生 的 成 绩 ， 
Y= 该 生 所 在 的 组 (7 E 1 ,k}). 
记 ns 为 第 s 组 的 学 生 数目 ， 记 z 为 学 生 总 数 . 我 们 解释 下 列 公 式 中 的 不 同 的 量 
var(X) = Elvar(X|Y)] + var(E[LX|Y]). 


在 这 里 ，var(X|Y = s) 是 第 s 组 测验 分 数 的 方差 . 因此 ， 
n 
Elvar(X|Y)] -2 Y = s)var(X|Y = s) 2 = s), 


所 以 Elvar(XIY) 是 各 组 方差 的 加 权 平 均 , 这 里 每 个 组 的 权重 与 组 内 人 数 成 正比 . 


注意 ，EIX|Y = 5] 是 第 s 组 的 平均 成 绩 ， 因 此 ，var(ELX| 着 ) 就 是 各 组 均值 波动 性 的 度 
量 . 全 方差 法 则 表明 分 数 的 总 方差 可 以 划 为 两 部 分 : 


(a) 在 每 组 内 部 方差 的 平均 数 Elvar(X|Y | ， 

(bp) 各 组 之 闻 的 方差 var(ELX| 站 ]). 

我 们 前 面 已 经 发 现 重 期 望 法 则 (以 全 期 望 定理 的 方式 给 出 ) 可 以 用 来 化 简 复 杂 的 期 望 计 
算 ， 对 于 方差 计算 也 可 用 类 似 的 方法 . 


例 4. 21( 通 过 给 定 条 件 来 计算 方差 ) 考虑 一 个 连续 随机 变量 也 它 的 概率 密度 函数 
在 图 4. 13 中 给 出 , 我 们 定义 一 个 辅助 的 随机 变量 了 如 下 : 














1， 党 ww 世 1， 
2 ee ws | 


这 里 ，E[X|Y] 以 1/2 的 概率 分 别 取 值 1/2 和 2， 因 此 , ELX| 站 的 均值 为 5/4， 接 下 来 


te en I A 
var(E[XIY]) = 3 i 半 全 be = 


y 一 





1 号 化 
图 4.13 例 4. 21 中 的 概率 密度 函数 
当 在 给 定 大 1 或 拓 2 的 条 件 下 ， 了 在 长 度 为 1 或 2 的 线段 上 均匀 分 布 ， 因 此 


| 1 、 4 
var(X|Y = 1) = ~—, var(X|Y = 2) = —, 
12 12 
且 
, | 1 1 1 4 5 
Elvar(X|Y)| = =:—+=- 一 一 二 
2 12 2 12 24 
归 总 ， 得 
, 、 , 5 9 37 
rar(X) = Elvar(X|lY)| +var(EIX|IY|)= C+ = C—. 
varlX) [var(X|Y)] + var(E[LX|Y]) 5 二 





总 结 本 节 要 点 如 下 . 
条 件 期 望 和 条 件 方差 的 性 质 
。EIX|IY = 的 值 依赖 于 


。E[X|Y] 是 随机 变量 上 的 函数 ， 因 此 它 也 是 一 个 随机 变量 ， 当 了 的 值 为 y 
时 , 它 的 值 就 等 于 EIX|Y = 引 


。PIEIX|Y | = EIX] ( 重 期 望 法 则 ). 


“EIX|Y 一 引 可 视 为 已 知 Y=y 时 对 了 的 估计 ， 相 应 的 估计 误差 EIX|Y] 一 六 
是 一 个 零 均值 的 随机 变量 ， 且 与 EIX|2] 是 不 相关 的 


。var(X|Y) 也 是 个 随机 变量 ， 当 了 的 值 为 了 时 它 的 值 就 等 于 var(X|Y = 纹 . 
Var 和) 二 Elvar( 久 | 站)] 十 varlE[X| 站 ) (全 方差 法 则 ). 





4.4 和 矩 母 函数 


在 本 节 中 ， 我 们 引进 与 随机 变量 相关 的 矩 母 函 数 这 个 概念 ， 矩 母 函 数 是 对 概率 (分 布 列 

或 者 概率 密度 函数 ) 的 另 一 种 表述 . 它 并 不 是 特别 直观 的 ， 但 是 在 解决 某 些 类 型 的 数学 

计算 时 很 方便 . 

| 1 原文 为 变换 , 按 国内 术语 译 成 矩 母 函 数 ， 一 一 译 者 注 

一 个 与 随机 变量 了 相关 的 矩 母 函 数 是 参数 s 的 函数 Mx(s)， 定 义 如 下 
Mx(s) = Ele™]. 


当 从 上 下 文中 可 以 明显 看 出 所 指 随机 变量 是 不 时 , 矩 母 函 数 也 可 以 简 记 为 Is)， 更 具 
体 地 ， 当 是 离散 随机 变量 时 , 相关 和 矩 母 函数 为 


M(s) = 》 epx (7), 


I 
































当 了 是 连续 随机 变量 时 , 有 ? 















































2 对 拉 普 拉 斯 变换 熟悉 的 读 eS a ee he 普 拉 斯 变换 是 








































































































基本 相同 的 ， 唯 一 的 区 别 是 拉 普 拉 斯 变换 通 第 使 用 而 不 是 e™Y. 对 于 离散 型 的 情况 , 变量 z 有 时 取代 € 
M(z) = ba pxl7) 
得 到 的 矩 母 函 数 I 称 作 z- 变 换 . 但 是 , 本 书 中 不 会 使 用 一 变换. 


M(s) = ] es fx(lz)dz. 





下 面 给 出 矩 母 函数 的 一 些 例子 . 


例 4.22 设 


px(7z) 二 41/6， 若 z=3 


则 相应 的 矩 母 函数 为 
M({s) = 一 ze 2s toe 人 一 e5s. 


例 4. 23( 泊 松 随机 变量 的 矩 母 函数 ) ” 设 随 机 变量 了 服从 参数 为 和 的 泊 松 分 布 








则 其 矩 母 函 数 如 下 所 示 





记 a =esN 则 





例 4. 24 (指数 随机 变量 的 矩 母 函数 ) ” 设 随 机 变量 了 服从 参数 为 和 的 指数 分 布 


则 


fx(l7T) = A I 


|V 
© 


M (s) = Sg 
0 


| ets— Nz dy 
0 





ed 当 入 时 
人 ey 
四 
Ns 


以 上 运算 和 ts) 的 公式 仅 在 s < 入 下 成 立 ， 否 则 积分 为 无 穷 . 








重要 





的 是 





要 认识 到 和 矩 母 函数 不 是 一 个 数 而 是 一 个 参数 为 s 的 函数 . 和 矩 母 函数 作用 于 一 





个 函数 (比如 说 概率 密度 函数 ), 得 到 一 个 新 函数 . 严格 地 说 ，M(s) 只 在 使 得 Ele ] 有 
限 的 s 上 有 定义 ， 上 一 个 例子 已 经 说 明了 这 个 事实 . 


例 4. 25( 随 机 变量 线性 函数 的 矩 母 函 数 ) ” 记 Mx(s) 为 随机 变量 了 的 矩 母 函 数 , 考虑 





新 随机 变量 Y = aX +b 的 矩 母 函 数 . 由 矩 母 函数 定义 ， 有 


Ny ( s) 二 Elest*X+6)] = esbples*] 这 esb Mx ( sa). 


例如 , 如 果 了 服从 参数 和 =1 的 指数 分 布 ， 则 Mx(3) = 1 一 中 如果 下 =2X+3 
则 





My(s) = e 


例 4. 26( 正 态 分 布 随 机 变量 的 矩 母 函 数 ) ” 记 了 为 服从 均值 为 x、 方 差 为 o? 的 正 态 
随机 变量 . 为 了 计算 它 的 矩 母 函 数 ， 首 先 我 们 考虑 标准 正 态 随机 变量 了 的 情况 , 对 了 
有 k=0 且 of=1 求 出 地 的 矩 母 函 数 以 后 ， 再 应 用 前 面 例 子 里 推出 的 公式 ， 导 出 
焉 的 矩 母 函数 . 标准 正 态 分 布 的 概率 密度 函数 为 














e- 妨 /2 





fy(y) = 


V 27 


相关 和 矩 母 函 数 为 





| 2 1/ 
My!(s) = | —e y /2eydy 
J-o0 V2T 


1 DO 
一 (32 /DTsl 
加 / e-(y/2)+sydy 
Vv 27 JJ -oo 
> 
s2/2 1 —(¥ /2)+sy—(s?/2) 
一 e 一 一 和 一 dy 
V2T /一 -= 
1 


DO 
Ee @s /2 ee 一 (5772 1; 
一- /5 C 1 
Ve JJ 一 0 











其 中 , 最 后 一 个 等 号 利用 了 服从 均值 为 s 方差 为 1 的 正 态 随机 变量 的 概率 密度 函数 的 归 
一 化 性 质 . 


均值 为 4 方差 为 o? 的 正 态 随机 变量 可 表 成 标准 正 态 随 机 变量 的 线性 函数 : 
X=0oY+k. 








而 标准 正 态 随 机 变量 了 的 矩 母 函 数 为 My(s) =e* 忆 应 用 例 4. 25 中 的 公式 , 有 
Mx I s) 一 es My (sa) 到 el(c2s2/2)+Hs 
4.4.1 从 和 矩 母 函数 到 甜 


“和 矩 母 函数 ”这 一 名 称 是 由 于 随机 变量 的 和 矩 可 以 通过 和 矩 母 函 数 的 公式 轻易 计算 出 而 得 
来 的 ， 为 验证 这 一 点 ， 现 在 考虑 一 个 连续 随机 变量 根据 定义 








DO 


M!({s) = ) es fx{lz)dz, 
J 一 0 


在 Mts) 定义 式 两 边 取 s 的 导数 


a = a / e™ Fxizjdr 
ds /_~ 


至 / i 


、 ds 
一 / ze fx{lz)dz. 
上 面 的 等 式 对 s 取 任何 值 都 成 立 3. 考虑 s=0 时 的 特殊 情况 ， 有 
3 这 个 导数 涉及 微分 和 积分 次 序 的 交换 ， 这 种 交换 对 本 书 讨论 的 所 有 情况 都 适用 ， 更 进一步 , 对 于 一 般 的 随机 变量 


人 事实 上 , 下面 更 抽象 的 等 式 也 是 成 立 的 : 
Dd ds ds 













































































ls | 1 





f(s) 三 rfxlr)dr = ELX]. 
s=0 = 


更 一 般 地, 如 果 我 们 对 M(s) 取 pn 次 s 的 导数 ， 通 过 类 似 的 计算 有 


dr 


ds™ 


例 4.27 我 们 在 前 面 ( 例 4. 22) 已 知 





& | fx(z)dz = EIX". 


1/2， 若 x=9， 
p(t) = <41 让 冰 w= 


ie 本 一 有 


其 相关 和 矩 母 函数 为 


: 有 

TS) 一 e2s 站 二 e3s 生 二 e5s 

四 3 
因此 ， 
EIX] = 全 Ma 
< 和 S 

ds s=0 

一 1 2e2s ,1 3e3s I l De5s 
2 s 一 0 
l 1 
2 6 3 
19 
6 


同时 














EX = TaM(s)| 
= =.4e”+ 9e™ 十 2 25e 
2 b 3 = 和 
ee 25 
2 6 3 
二 全 
= 
指数 随机 变量 的 概率 密度 函数 为 
Fxfz) =Me*, zx>0. 
前 面 ( 例 4. 24) 已 得 
MI(s) = 
\ 入 S 
因此 ， 
- 7 
Es ; 二 (s) = 2 
ds {A— s&s) ds- (入 一 s)3 
令 s=0, 有 
E[X E[X2 2 
[xX] = x [xX]= 3 


这 和 第 3 章 中 推出 的 公式 相 吻 合 . 
我 们 以 矩 母 函数 的 两 个 更 有 用 且 普 遍 的 性 质 结束 本 节 . 对 于 任意 的 随机 变量 和 有 
Mx(0) = Ele™] = E[l] =1, 
且 如 果 工 仅 取 非 钠 整 数值 时 ， 有 
lim Mx(s) =P(X =0) 





( 见 本 章 末 习题 ). 


4.4.2 和 窍 母 函数 的 可 逆 性 


和 矩 母 函数 Mx(s) pe gl 可 逆 , 即 可 用 它 来 确定 随机 变量 了 的 概率 
律 ， 当然 , 为 了 使 矩 母 函 数 Mx(s) 能 够 确定 相应 的 概率 律 , 一 些 合适 的 数学 条 件 是 必要 
的 .幸运 的 是 ， 我 们 所 列举 的 例 子 中 的 但 得 数 都 满足 这 些 条 件 ， 下面 是 一 个 更 精准 
的 描述 , 其 证 明 已 经 超出 了 本 教程 的 范围 . 

















矩 母 函 数 可 逆 的 条 件 


假定 随机 变量 了 的 矩 母 函数 Mx(s) 满足 : 存在 一 个 正 数 a 对 在 区 间 [-Q@qj 中 

的 任意 s，Mxls) 都 是 有 限 的 ， 则 和 矩 母 函数 Mxls) 唯一 地 决定 了 的 分 布 函数 
实际 上 , 有 显 式 的 公式 可 以 让 我 们 从 随机 变量 的 矩 母 函数 导出 它 的 分 布 列 或 概率 密度 函 
数 , 但 是 使 用 起 来 相当 困难 . 实际 上 , 矩 母 函数 通常 可 以 基于 已 知 分 布 - 矩 母 函 数组 合 的 
表格 , 通过 “类 型 配合 ”进行 反 演 .， 下面 来 看 一 些 这 样 的 例子 


例 4.28 已 知 随机 变量 了 的 相关 和 矩 母 函数 为 



































1 F 
ATI 8) 一 a A 二 ed4s A 二 e53 
4 。 








因为 Mxls) 是 es 的 代数 和 , 我 们 可 以 与 离散 随机 变量 的 矩 母 函数 的 通用 公式 
Ml{s) = Dorpx (Zz) 


I 








相 比 较 ， 通 过 比较 可 以 推出 XY 是 一 个 离散 随机 变量 .XY 的 取 值 范围 可 以 从 相应 的 指数 
J 即 -1、0、4、5， 取 每 个 x 值 的 概率 可 以 从 es 前 面 乘 的 系数 得 到 ， 在 本 例 
， 由 ] 








1 1 1 1 
P(X =—1)=-, P(X =0)=-, P(X =4)}= -, P(X =0) = -. 
! 2 8 8 








从 上 面 的 例子 可 以 看 出 , 一 个 只 取 有 限 个 值 的 离散 随机 变量 的 分 布 可 以 通过 观察 其 矩 母 
函数 得 出 . 同样 ， 这 样 的 方法 对 于 取 可 数 无 限 多 个 值 的 离散 随机 变量 也 有 效 , 可 见 下 例 . 


例 4. 29 (几何 随机 变量 的 矩 母 函数 ) ”已 知 随机 变量 X 的 矩 母 函 数 为 


pe” 
1— (1—p)es: 














MIs) = 





这 里 p 是 一 个 常数 ， 且 0< 了 1 我 们 想 要 求 出 了 的 分 布 . 由 几何 级 数 公式 得 
l 
1 一 a 


上 式 对 于 任意 满足 la| < 、 的 a 都 成 立 ， 我 们 对 as = (1 一 Pe 运用 此 公式 , 这 里 要 求 s 
充分 接近 0 使 得 (1 一 Pe <1 此 时 ,和 矩 母 函数 具有 展开 式 


M(s) = pe(l+(1— pe’+{(1— p)e, 十 (1 一 Dp) es 十 "…】). 


将 这 个 式 子 与 上 例 中 一 般 离散 随机 变量 的 矩 母 函数 的 表达 式 比较 , 可 知 Mxls) 所 对 应 
的 随机 变量 是 取 正 整数 值 的 离散 型 随机 变量 概率 P(X = 站) 可 以 通过 读 取 es 的 系 
数 得 到 . 具体 来 说 ，P(X =1) =p，P(X =2) =p(1 一 p)， 一般 地 有 


P(X = k)= pl(l -Pp , k=1,2,..- 


了 
=1+a+a2+... 




















可 见 这 个 分 布 正 是 参数 为 的 几何 分 布 . 
注意 


1 3 (1 — p)pe* 
C M(s) = a [I . ppe i 
ds、 1 一 (1 一 pies (1—(1—p)es)’ 


当 s=0 时 , 右边 等 于 1/P， 这 和 第 2 章 推出 的 EF[X] 公式 相符 
例 4. 30 (混合 分 布 的 矩 母 函 数 ) ”已 知 附近 银行 有 三 位 交易 员 ， 两 位 快速 交易 员 ， 一 
位 慢 速 交易 员 . 已 知 交易 员 为 一 名 客户 服务 的 时 间 服 从 指数 分 布 , 快速 交易 员 对 应 的 参 


数 入 = 6， 慢 速 交 易 员 对 应 的 参数 和 = 4. 简 来 到 银行 ， 随 机 选择 了 一 位 交易 员 ， 每 位 
交易 员 被 选中 的 概率 为 1/3. 试 求 出 简 接 受 服务 的 时 间 的 概率 密度 函数 和 矩 母 函 数 ， 


记 了 为 简 接 受 服务 的 时 间 ， 我 们 有 
































相应 的 矩 母 函 数 为 


M(s)= fe "(3 es 6 十 se | dz 


1 oO 
-3 e’*6e “te*dg 千 司 | esz4e-4zdz 
多 


GS 1 
= -= 光束 去 下 时 
-a ( 妾 s<4 时 ) 
一 般 地 ， 设 Xi,… ,Xa 为 概率 密度 函数 fx.,… , fx。 的 连续 随机 变量 ， 随 机 变量 了 
的 一 个 值 ' ”是 这 样 取得 的 4 先 随机 直选 出 指标 选 到 了 的 概率 为 P” 如果 指标 
en 


fy(y) = Pifx(y) + + pnfx,(y), 








~ 


相应 的 矩 母 函 数 为 


My (s) = prMax(s) + + pn Max, (s). 


2 函数 求 出 相应 的 分 布 ， 例如， 已 知 随机 变量 了 的 矩 母 函数 有 
0 下 形式 


将 这 个 函数 改写 为 


4 2—s 4 1 一 5 

可 见 了 是 两 个 参数 分 别 为 2 和 1 的 指数 随机 变量 的 混合 变量 , 这 两 个 变量 被 选中 的 概率 
分 别 为 1/4 和 3/4. 
4. 4.3 独立 随机 变量 和 
和 矩 母 函 数 的 方法 对 于 处 理 随 机 变量 和 的 问题 尤其 便利 ， 我 们 将 看 到 , 独立 随机 变量 的 和 
的 矩 母 函 数 的 乘积 . 这 样 也 提供 了 卷 积 公式 之 外 的 另 一 个 便利 的 公 
工 N。 
记 不 和 上 为 独立 的 随机 变量 ， 并 记 Z =X+ 牙 根据 定义 ，2 的 和 矩 母 函 数 为 

Mz(s) = 了 [es2] = Ele’™+Y)] = 也 [es es ]. 


因为 了 和 了 是 独立 的 ， 对 于 任意 的 s，es 和 es 是 相互 独立 的 随机 变量 ， 因 此 , 它 
们 乘积 的 期 望 即 为 它们 期 望 的 乘积 ， 即 


Mz(s) = Ele™ ]Ele’] = Mx(s)My(s). 
同样 地 ， 如 果 六 1,…… ,Xn 是 独立 的 随机 变量 , 且 
py ee I eR 
相应 的 矩 母 函 数 之 间 有 下 面 的 关系 : 
Mz(s) = Max,(s):…. Mx, (s). 


例 4. 31( 二 项 随机 变量 的 矩 母 函 数 ) 设 六,… ,Xn 为 独立 的 伯 努 利 随机 变量 ， 参 数 
都 为 2， 按 定义 , 不 难得 到 











Mx, (s} = {1 —p)es 十 pek 一 工 一 大 十 pe 对 一 切 了 成 立 i. 
随机 变量 2 = 六 1 十 … 十 Xn 服从 参数 为 nxn 和 的 二 项 分 布 , 相应 的 矩 母 函数 为 
Mz(ls) = (1 —p+pe’)". 


例 4. 32 (独立 泊 松 随机 变量 之 和 仍 为 泊 松 随机 变量 ) 设 了 和 了 为 两 个 相互 独立 的 
泊 松 随机 变量 , 均值 分 别 为 A 和 A， 由 例 4. 23 知 ， 


Mx(s)=e YY My(s) = Y. 


记 Z= 针 + 由 于 了 和 了 相互 独立 ,我 们 有 








Mzls) = Mxls)My(s) = Re 一 


因此 ，2 的 算 母 函数 和 均值 为 ^+A 的 泊 松 随机 变量 的 矩 母 函 数 相同 ， 根 据 和 矩 母 函 数 
的 唯一 性 , 2 服从 均值 为 ^+A 的 泊 松 分 布 . 

















例 4. 33( 独 立正 态 随机 变量 之 和 仍 为 正 态 随机 变量 ) 设 了 和 了 为 两 个 相互 独立 的 
正 态 随 机 变量 ， 均 值 分 别 为 Jz 和 心 ， 方 差分 别 为 民 和 吃 记 2=X+Y 则 
Mx(s) = He My(s) = 2 


且 


(cz 十 cjs | 
一 一 十 (zx 十 lyj)s 


Miz (s) 二 € 
因此 ，2 的 矩 母 函数 与 均值 为 刁 十 属 方差 为 呈 十 史 的 正 态 随机 变量 的 矩 母 函数 相 
同 . 根据 矩 母 函数 的 唯一 性 ，Z 服从 上 述 参数 的 正 态 分 布 . 这 与 4. 1 节 中 根据 卷 积 公式 计 
算出 来 的 结果 是 一 样 的 . 
矩 母 函数 及 其 性 质 的 小 结 
。 随 机 变量 了 的 矩 母 函数 定义 如 下 : 


>》 epx(z)， 老 X 为 离散 型 ， 


Mle)= Ble™ | = 0 
| es fx(z)dz, 车 X 为 连续 型 . 


一 CO 











。 随机 变量 的 分 布 完全 由 它 的 矩 母 函 数 确定 . 
。 利 用 矩 母 函数 计算 随机 变量 的 各 阶 矩 : 


d , ee 
Mx(0) = 1, —Mx!(s) =E[X], —Mx(s) = EX". 


ds s=0 ds™ s=0 

。 若 六 =axX+b 则 My(s) = ewMx(as). 

。 若 了 和 了 相互 独立 ， 则 Mxyy(s) = Mx(s)My(s). 
我 们 已 经 得 到 了 一 些 和 常见 随机 变量 的 箱 母 函数 的 公式 . 我 们 也 可 以 用 适量 的 代数 学 知 
识 , 对 许多 其 他 的 分 布 推导 类 似 的 公式 ( 见 本 章 末 有 关 均 匀 分 布 的 习题 ). 现 将 这 些 结果 
列 于 下 面 的 表格 中 . 

常见 的 离散 随机 变量 的 矩 母 函 数 
.参数 为 p 的 伯 努 利 分 布 (k= 0.1) 














Mx(s)=1— p+ pes. 


。 参 数 为 (n,P 了 ) 的 二 项 分 布 (= 0,1,… ,nn) 
f n ki \n 一 大 1 1 s\n 
px (lk) = (和 (1—p)} , Mx(s)=(1—p+pe). 


。 参数 为 p 的 几何 分 布 (* =1,2,…) 




















(有 = p(1— p)*-!, Pe 
pxlk) = pll— 7p) xls) 1 (1 pe 
。 参 数 为 的 泊 松 分 布 (k= 0,1,…) 
a 入 AK Pe 
px (k) = - i Mx(s) = ee 
ee 
| 1 ,18 etbraHjs 二 
‘(k) = 一 一 My{s}=———:— 
PK 一 4 十 1 Ixls) b—at+l es—l1 
常见 连续 随机 变量 的 矩 母 函 数 
。(4, 了 5) 上 的 均匀 分 布 la 三 工 三 则 
本 1 , 1 esb — @sa 
fx(7z) = 、 Mx{s) = : 
b—a b—a 5 
。 参数 为 A 的 指数 分 布 (7 > 0) 
入 
fx(r) = Me *, Mx(s)=——, (s <N\). 
。 参数 为 (1,07) 的 正 态 分 布 -ce < 三 co) 
EX 1 _({(z_u)2/202 人 (g2s2/2)4 us 
f(s) = -让 ee 和 Mx(s) = ee /Wtps. 
270 


4. 4.4 联合 分 布 的 矩 母 函 数 


如 果 两 个 随机 变量 了 和 了 通过 联合 分 布 (例如 联合 概率 密度 函数 ) 来 描述 , 那么 每 个 变 
量 都 有 一 个 矩 母 函数 Mxls) 和 My(s). 它们 是 边缘 分 布 的 矩 母 函 数 ， 不 包含 任何 关于 











这 两 个 随机 变量 相依 性 的 信息 . 而 两 个 随机 变量 相依 性 的 信息 包含 在 多 元 矩 母 函数 中 ， 
下 面 给 出 定义 . 
考虑 同一 试验 中 的 n 个 随机 变量 六,… ,Xn. 记 55 为 无 量 纲 实 参数 .多 元 矩 
母 函 数 是 这 个 参数 的 函数 ， 它 定义 为 

Ma x (s1s sn) = Eles ttsn Xn], 
前 面 讨 论 过 的 矩 母 函 数 的 可 逆 性 可 以 推广 到 多 元 情形 , 即 如 果 1,… ,Yn 是 男 一 组 随机 


变量 , 是 Ms ;sn) 与 Mn.y(s1,… ,sn) 相同 , 则 X1,… ,Xn 的 联合 分 布 与 
i,… ,Yn 的 联合 分 布 相 同 . 











4.5 随机 数 个 相互 独立 的 随机 变量 之 和 


到 现在 为 止 ， 我 们 讨论 过 的 随机 变量 求 和 的 问题 中 , 总 是 假定 随机 变量 个 数 是 已 知 且 固 
定 的 ， 在 本 节 中 , 我 们 考虑 这 样 的 情况 : 在 随机 变量 求 和 的 过 程 中 , 随机 变量 的 数目 本 
身 也 是 随机 的 ， 特 别 地 ， 我 们 考虑 


Y = Xi1+:…+ Xn, 
这 里 w 是 个 取 正 整数 值 的 随机 变量 , X1, 六 2,… 是 同 分 布 的 随机 变量 (如果 AE0， 则 定 
义 天 0) .假定 六 ,六 1, 六 2,… 彼此 独立 , 即 这 些 随 机 变量 的 任意 有 限 子 集 都 是 独立 的 . 

下 面 我 们 记 EIX] 和 var( 习 ) 分 别 为 Xi 的 公共 的 均值 和 方差 . 我 们 想 要 求 出 了 的 均 


值 、 方 差 和 和 矩 母 函 数 .我 们 使 用 的 方法 为 先 给 定 一 个 条 件 N = n, 这 样 我 们 就 将 情况 转 
化 为 常见 的 情况 ， 求 固定 数目 随机 变量 和 的 问题 . 














确定 某 非 负 整数 hp。 随机 变量 Xi + …+ xn 与 WW 独立， 由 此 可 知 ,Xi1+… 十 Xn 与 事 
件 { = 7? 相互 独立 ， 因 此 ， 
ElY|IN=n]= EXi+:…+ XN|IN =n] 
一 也 区 1 十 … 十 和 nm 六 王妃 
一 E[X1 -| 后 Xn] 
= nE[IX]. 


这 对 于 任意 非 负 整 数 ”都 成 立 ， 因 此 
EIY|N] = NE[X]. 
使 用 重 期 望 法 则 ， 有 
E[Y] = E[E[Y|N]] = EINE[X]] = ELX]E[N]. 


类 似 地 ， 
varlY|N = n) = varl XI1 | pp XNn|N =n) 
二 Var( 关 1 十:… 十 Xn) 
= nvar(X). 


因为 这 对 任意 非 负 整数 n 都 是 成 立 的 ， 随 机 变量 varlYIN) 等 于 Nvar(X)， 我 们 现在 
运用 全 方差 法 则 得 
var(lY) = Elvar(Y |N)] + var(E[Y |N]) 
= El[Nvar(X)| + var( NE[X)] 
= E[N]var(X) + (E[X)]):var(N). 


矩 母 函数 的 计算 和 上 面 的 计算 类 似 ， 基 于 条 件 Nn 的 的 矩 母 函数 为 
EleY|N = 串 . 但 是 ， 基 于 N -= n 的 条 件 , 了 是 独立 随机 变量 XX,… ,Xn 的 和 ， 且 


Ele’ |N = 一刀] = Ele’™: … -eXn|N 二 7n| 





= Eles™! 时 -esX"] 
= Ele’™']... Ele’™"] 
= (Mx (s))", 


这 里 Mx 为 的 条 纯 数 ( 对 于 任意 7 )， 运 用 重 期 沁 法 则 ,的 (天 条 伯 ) 短 全 
Ny(s) = Ele’] = ElE[le’ |N]] = El( Max (s))™] Sy Mx (s)) "py(n). 


n=] 


与 下 列 公式 相对 照 


Myl(s) = Eles™] 一 >》_(e’ )"pn (n), 


n=1 


可 见 My(s)fn My(s) a 或 者 等 价 地 ， 将 Mw(s) 的 表达 式 中 所 有 ex 用 
Mxls) 替换 即 可 得 到 My 


下 面 总 结 推导 出 的 性 质 如 下 . 
随机 数 个 相互 独立 随机 变量 之 和 的 性 质 


记 X1, 六 2,… 为 均值 EIX] 方差 var(XX) 的 同 分 布 随机 变量 ， 记 W 为 取 值 于 非 负 
整数 的 随机 变 外 我 们 假定 上 述 所 有 变量 相互 独立 ， 下 面 考虑 变量 和 


Y = Xi1+-…+ Xy. 





。 var(Y) = var(X)E[IN] + (ELX])’var(N). 


。 和 矩 母 函数 My(s) 可 由 计算 矩 母 函 数 Mx(s) 的 公式 得 到 ， 将 其 中 的 e* 全 部 
蔡 换 成 Mx(s) 即 可 . 


例 4. 34 一 个 遥远 的 村 庄 有 三 家 加 油 站 . 每 家 加 油 站 在 任意 一 天 营业 的 概率 都 是 1/2,， 
而 且 各 家 的 营业 与 否 都 是 相互 独立 的 . 各 家 加 油 站 的 汽油 存量 是 相互 独立 的 随机 变量 ， 
其 分 布 都 是 0 到 1 000 加 仑 之 间 的 均匀 分 布 ， 我 们 想 要 刻画 营业 的 加 油 站 汽油 存量 总 和 
的 概率 分 布 规律 . 


营业 加 油 站 的 数目 W 是 服从 P= 1/2 的 二 项 随机 变量 , 相应 的 抢 母 函数 为 



































My(s)=(1—p+pe’) 一 (1+e 











生 家 营业 的 加 油 站 的 汽油 存量 的 相应 答 母 函数 Mx(s) 为 


el000s 四 1 





Fs 
Xls) 1000s 





汽油 存量 总 和 了 的 相应 矩 母 函 数 可 通过 Myx(s) 来 计算 ， 把 Mw(s) 公式 中 的 e* 替换 
成 Mx(s) 即 可 ， 即 有 


1 ,1000s _ ] \3 
CR nt 
5 1000s 


例 4. 35( 个 数 服从 几何 分 布 的 独立 指数 随机 变量 之 和 ) ” 简 为 买 一 本 《远大 前 程 》 的 
书 逛 了 很 多 家 书店 . 每 家 书店 有 这 本 书 的 概率 都 是 p， 且 与 其 他 书店 相互 独立 . 得 任意 
一 家 书店 ， 简 停留 的 时 间 都 是 随机 变量 , 服从 参数 为 和 的 指数 分 布 ， 直 到 她 找到 这 本 
书 或 者 她 肯定 这 家 书店 没有 这 本 书后 才 离开 . 假定 简 会 一 直选 下 去 直到 她 买 到 这 本 书 ， 

且 她 在 每 家 书店 停留 的 时 间 与 其 他 任何 事情 都 独立 . 我 们 希望 求 出 简 逛 书店 的 时 间 总 和 
的 均值 、 方 差 和 概率 密度 函数 . 


简 和 逛 的 书店 数目 W 服从 参数 为 p 的 几何 分 布 ， 因 此 ,在 书店 中 花费 的 总 时 间 了 是 W 
De 六 1, 六 2,…* ,六 Ny 的 和 ， 其 中 变量 Xi; 服从 指数 分 布 , 参数 为 
和 ， 我 们 
































ElY] = EIN|E[X] = =- 


运用 几何 分 布 和 指数 分 布 随机 变量 的 方差 公式 ， 得 到 


pa a Rb 、 ek | 1 1—p 1 
var(Y) = E[N]var(X) + (E[X]):var(N) a Rr Wp 





为 得 到 和 矩 母 函数 Myls)， 首 先 有 
| 入 Pe” 
Js) = 一， My(s)= 一 一. 
Xls) 入 一 5 Nls) 1— (1—p)e: 
将 Mw(s) 公式 中 每 个 ee 都 换 成 Mx (3)， 即 得 


pA 
pi\x{s) 加 和 一 5 
1 一 (1 一 DAMxls) 





My [ s) 一 





1 一 (1 一 中 
一 —D 
! 和 A='g 


pA 


My{s) = . 
Y (s) pA—s 





这 就 是 服从 参数 为 PA 的 指数 随机 变量 的 矩 母 函 数 , 所 以 ， 

fy(W) =pMe ?YY, vy2>0. 
这 个 结 末 很 令 我 们 惊讶 ， 因 为 定数 2 个 独立 指数 随机 变量 和 反而 不 服从 指数 分 布 ， 例 
如 ， 当 天 2 时 ， 变 量 和 的 殉 母 函数 为 (MIA 一 引 ， 这 与 指数 随机 变量 的 矩 母 函 数 不 相 
符 . 


例 4. 36 (个 数 服从 几何 分 布 的 独立 几何 随机 变量 之 和 ) 本 例 是 与 前 例 对 应 的 一 个 离 
散 类 型 .我 们 记 VW 服从 参数 为 p 的 几何 分 布 ， 同 时 记 每 个 随机 变量 A% 服从 参数 为 














g 的 几何 分 布 . 假定 这 些 随 机 变量 都 是 独立 的 ， 记 == 六 1 十 … 十 六 yw， 我 们 有 
Mw | ) 1 二 1 一 pjer Mixl ) 1 二 | 一 qjer 


为 了 计算 My(s)， 先 从 计算 Ms(s) 的 公式 入 手 ， 并 且 将 公式 中 出 现 的 es 都 用 Mx(3) 
替换 ， 这 样 有 


，、 yy ls) 
My(s) = ee 
1 一 (1 一 PNATXLS) 
经 过 计算 ， 有 
WA 
1—{1—pgjes 


这 样 即 推断 出 了 服从 参数 为 pg 的 几何 分 布 . 





4.6 小 结 和 讨论 
在 本 章 ， 我 们 学 习 了 很 多 内 容 ， 这 里 我 们 总 结 一 下 其 中 的 一 些 重点 . 


在 4. 1 , 我 们 介绍 了 一 个 连续 随机 变量 了 的 函数 g(X) 的 概率 密度 函数 的 计算 方法 . 
运用 分 布 函数 的 概念 非常 有 用 ， 特别 地 ，g9l 六 ) 的 密度 函数 是 通过 计算 它 的 分 布 阔 数 ， 
fe ea 在 很 多 情况 下 ，9l 六 ) 是 严格 单调 函数 , 那么 可 以 通过 特殊 
公式 来 直接 计算 概率 密度 函数 . 我 们 同时 也 考虑 了 两 个 连续 随机 变量 函数 gl 六 ,了 ) 的 
息 涩 宫 庆 品 数 的 计算 问题 特别 地 ， 我 们 推导 出 两 个 独立 随机 变量 和 的 概率 律 的 卷 积 公 


式 . 


在 4. 2 节 ， 我 们 介绍 了 协 方 关 和 相关 系数 的 概念 , 它们 都 是 量化 两 个 随机 变量 之 间 的 关 
系 大 小 的 指标 . 协 方差、 相关 系数 都 可 以 用 于 计算 相关 的 随机 变量 和 的 总 方差. 它们 在 
8.4 节 的 线性 最 小 二 乘 估 计 方 法 中 也 会 大 有 作为 . 


0 3 节 ， 我 们 重新 考虑 关于 条 件 的 话 局 目的 是 导出 条 件 期 望 和 条 件 方差 的 有 用 工具 . 
条 件 期 望 进行 了 大 量 的 研究 和 分 析 ， 结 果 表 明 条 件 期 望 可 视 为 随机 变量 , 也 有 自己 独 
竺 的 期 望 和 方 关 我 们 推导 了 许多 性 质 , 包括 重 期 望 法 则 和 全 方差 法 则 . 


在 4. 4 节 ， 我 们 介绍 了 随机 变量 的 矩 母 函数 以 及 矩 母 函 数 是 怎么 算出 来 的 . 反 过 来 ， 我 
们 指出 给 定 一 个 矩 母 函数 与 这 个 第 母 函 数 相关 联 的 随机 变量 的 分 布 是 唯一 确定 的 . 对 
于 常用 的 随机 变量 ， 可 利用 和 窍 母 函数 表 查 到 其 相应 的 矩 母 函数 . 我 们 发 现 窍 母 函 数 有 以 
下 很 多 有 用 的 用 途 : 


(a) 随机 变量 的 和 矩 母 函数 提供 了 一 种 计算 随机 变量 矩 的 捷径 ; 


(b) 两 个 独立 随机 变量 和 的 矩 母 函数 等 于 它们 各 自 矩 母 函数 的 乘积 , 这 个 性 质 用 来 说 明 
两 个 独立 正 态 ( 泊 松 ) 随 机 变量 的 和 也 是 正 态 ( 泊 松 ) 分 布 ; 


(c) 和 矩 母 函 数 可 以 用 来 确定 个 数 为 随机 数 的 随机 变量 和 的 分 布 ( 见 4. 5 节 ), 其 他 的 方法 
是 不 可 能 做 到 这 一 点 的 ， 


最 后 在 4. 5 节 中 ， 我 们 推导 出 个 数 为 随机 变量 的 独立 随机 变量 和 的 均值 、 方 差 和 和 矩 母 函 
数 的 计算 公式 ， 这 其 中 综合 运用 了 4. 3 节 和 4. 4 节 中 的 方法 . 

























































































习题 
4.1 节 随机 变量 函数 的 概率 密度 函数 
1， 如 果 是 -1 到 1 之 间 的 均匀 随机 变量 ， 求 出 VIX| 和 一 也 |X| 的 概率 密度 函数 . 


， 试 用 了 的 概率 密度 函数 来 表示 eX 的 概率 密度 函数 .然后 求 出 当 了 服从 [0, 1] 区 
间 的 均 习 分 布 时 eX 的 概率 密度 函数 . 


3， 试 用 了 的 概率 密度 函数 来 表示 |X| ”和 |X ”的 概率 密度 函数 . 


4. 城 铁 从 早上 6:00 开 始 ， 每 隔 15 分 钟 到 达 你 家 附近 的 车 站 . 你 每 天 早晨 在 7:10 到 7:30 
之 间 的 某 时 刻 到 达 车 站 . 设 到 达 时 间 为 一 个 随机 变量 ， 其 分 布 已 知 ( 见 第 3 章 中 例 3. 14 的 
分 布 )， 记 不 为 你 到 达 车 站 的 时 刻 与 7:10 之 间 的 时 间 长 度 (单位 : 分 钟 )， 记 了 为 你 上 
车 之 前 需要 等 待 的 时 间 ， 试 用 了 的 分 布 函数 来 表示 了 的 分 布 函 数 ， 然 后 求 导 ， 计 算 
了 的 概率 密度 函数 . 


5， 设 了 和 了 是 相互 独立 的 随机 变量 , 均 服从 [0, 1] 的 均匀 分 布 ， 求 |X 一 站 的 分 布 函 


6. 在 笛 卡 儿 坐 标 系 中 ， 设 (X,Y) 是 在 三 点 (0, 1)、(0, -1)、(1, 0) 围 成 的 三 角形 内 均 
匀 分 布 的 随机 点 , 求 出 Be 一 了 | 的 分 布 函数 和 概率 密度 函数 . 


7， 从 区 间 [0, 1 中 随机 地 、 独立 地 、 均 匀 地 选 出 两 个 点 , 证 明 这 两 个 点 之 间距 离 的 期 
望 值 是 1/3. 


8. 设 了 和 了 是 相互 独立 的 随机 变量 , 均 服 从 参数 为 和 的 指数 分 布 ， 求 Z = 革 十 YY 
的 概率 密度 函数 . 


9.， 再 次 考虑 例 4. 9， 但 是 假设 了 和 了 分 别 服从 参数 为 A 和 1 的 指数 分 布 ， 求 
Z 二 一 Y 的 概率 密度 函数 . 


10. 设 了 和 了 是 相互 独立 的 随机 变量 ,它们 的 分 布 列 如 下 : 
































1/2， 者 y= 二 0， 
1/3, 和 六 二 汪 包 名 1/3, 大 y= 》 
DX(2Z) = py(y) = 
0， ”其 他 ， 


请 用 卷 积 公式 计算 Z = 和 +Y 的 分 布 列 . 


， 请 用 卷 积 公式 证 明 : 两 个 分 别 服从 参数 为 A 和 & 的 泊 松 分 布 的 随机 变量 之 和 仍 
是 泊 松 分 布 ， 其 参数 为 入 +. 


sp 
密度 函数 


13， 设 一 个 概率 密度 函数 只 在 区 间 [中 上 取 正 值 ， 且 关于 区 间 中 点 (4 十 外 /2 对 称 . 
设 了 和 了 相互 独立 ， 且 具有 这 样 的 概率 密度 函数 . 如 果 已 经 计算 出 x+Y 的 概率 
密度 函数 ， 如 何 计算 xX 一 Y 的 概率 密度 函数 . 


14. 竞争 型 指数 分 布 ， 设 两 蔓 灯 泡 的 寿命 和 了 相互 独立 ， 且 分 别 服从 参数 为 和 
和 5 的 指数 分 布 ， 则 首先 用 坏 的 时 间 是 


Z = min{X,Y}. 
试 证 明 : 2 也 是 服从 指数 分 布 ， 参 数 为 和 十 几 
15. 柯 西 随机 变 
(a) 设 工 是 -172 与 1/2 之 间 均 匀 分 布 的 随机 变量 ， 证 明 工 =tanfrX) 的 概率 密度 函数 


是 

















/ l 四 
frly) = A +) 一 Do <Y < oo. 


(了 称 为 柯 西 随机 变量 . ) 


(b) 设 了 是 柯 西 随机 变量 ， 设 了 是 位 于 -7/2 和 7/2 之 间 的 角度 数 ， 满 足 
tan(X) =Y， 求 了 的 概率 密度 函数 


解 (a) 首先 注意 到 了 是 连续 的 且 关 于 XY 严格 递增 的 函数 ， 当 六 E112,1/2] 时 ,了 
的 取 值 空间 位 于 -ce 和 ce 之 间 . 所 以 对 任意 实数 六 








Fy(ly) = Pl(Y < vy) = Pltan(rX) < y) = P(X < tan 1y) 一 


性 


1 -1 
二 tan y, 


六 


II ep 分 布 的 随机 变量 的 分 布 函数 的 性 质 . 所 
过 求 导 ， 并 利用 公 SR dan 1 我 们 可 以 得 到 : 对 任意 的 实数 











的 


2 1 

fyly) = nly 

i 函数 .对 任意 的 
门 





当 Z<- 一 i 
求 导 ,可 以 看 册 下 的 分 布 是 在 区 间 [一 


2 时 ，P(X) = 0， 





P(X <7z)= Pltan!Y <7) 
= PLY < tanz) 
1 tanI 1 
= 二 ——d 
不 /. 上 洒 2 VY 
1 tan 7 
= 二 tanr] 1 
开 3 
Ls i 
= 一 {TT 十 TT/2) 
元 | 
而 当 TI> T/2 时 ，P(X 7)=1， 对 分 布 函 数 PIX 三 了 ) 


/2,7/2] 上 的 均匀 分 布 . 


值得 注意 的 是 ， 柯 西 分 布 的 一 个 有 趣 的 性 质 是 


于 连续 变量 


(a) 证 明 日 在 区 间 [0,27 


并 且 中 和 eB 相互 独立 . 


2 
| i 


] 均匀 分 布 ，R 具有 概率 密度 


— dy 二 一 pn 一 人 dy= DG， 
(1+ 久 ) on TU 


这 个 性 质 很 容易 验证 . 所 以 柯 西 分 布 没 有 期 望 值 ， 尽 管 
期 望 的 定义 的 备注 . 


16. 两 个 独立 正 态 随机 变量 的 极 坐 标 . 


CTY) 可 以 使 用 极 坐 标 来 描述 ， 记 R=0 和 夹 角 sl027 则 


分 布 关于 0 点 对 称 . 见 3. 1 节 中 关 





设 了 和 大 独立 的 标准 正 态 随机 变量 . 对 


X= RcosO, Y= Rsine. 








/2 


fral7) = re-"™/2 7 > 0 


(随机 变量 〖 通常 称 为 瑞 利 分 布 . ) 


(b) 证 明 户 的 分 布 是 参数 为 1/2 的 指数 分 布 . 


注意 ， 利 用 该 题 的 结论 ， 我 们 可 以 看 出 ， 正 态 


样本 和 指数 分 布 样本 来 产生 


解 


Jr 


现在 我 们 来 求 R 和 e 的 联合 


的 集合 : 点 的 极 坐 标 (7,9) 满足 0<7< 7 
径 , 夹 角 为 9 的 扇形 . 


Fre(r,0) = P(R<r 





:分布 的 随机 样本 可 以 通过 独立 均匀 分 布 


(a) 和 了 的 联合 概率 密度 函数 是 


e-(2 2 42) /2 


(z,) = fx(T)fy(y) = 


分 布 ， 固 定 7 


09) =P((X,Y) € A) 
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my 
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SS 
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最 后 一 个 等 式 利用 了 极 坐标 的 转换 ， 求 导 ， 可 得 


D2Fpef7rb) 





\ 2 /9 , 
3(7,0) = —e "/, "20.0 0, 27|. 
fr.el7, 9) Brog 7 之 E | ] 
因此 
frl7) = 大 FRRelr,9)db = re-"/2? 了 > 0. 
J0 
而 且 
pe 人 1 
9|R(9|7) = . 一 一 ， 0€|[0,27]l. 
jblBR |7 fa(r) Dz | ] 


因为 日 的 条 件 概率 密度 函数 feat 与 R 的 值 无 关 , 所 以 ， 它 必 与 


无 条 件 概率 密度 


函数 fe 是 一 样 的 ， 特 别 地 , fa,e(",9) = Je 所 以 中 与 日 是 相互 独立 的 . 


(b) 记 上 >0， 我 们 有 


P(R >=PR>VD= | "har= | edu=e, 
Y Jt/2 


JJ vt 


这 里 我 们 运用 了 变量 替换 w="*/2， 求 导 可 得 


4.2 节 ” 协 方差 和 相关 





17. 假设 随机 变量 和 了 具有 相同 的 方差 ， 证明 : 和 +Y 与 六 一 Y 不 相关 . 


18. 假设 四 个 随机 变量 只 不 及 2 满足 
EIW] = E[X] = E[Y] = E[Z] = 0， 





var(W) = var(X) = var(lY) = var(Z) = 


假设 内 大 Z 相互 之 间 两 两 不 相关 . 计算 相关 系数 PlR,S) 和 PlR,T), 这 里 


po 1 Dp, oi ee ny ee 
19. 假设 随机 变量 了 满足 
E[X] = 0，E[X3 = 1，E[X3] =0, E[X1]=3 


定义 新 的 随机 变量 





Y =a+bX+cexX?. 


计算 相关 系数 P(X,Y). 
20. * 施 岂 兹 不 等 式 **， 证 明 对 任意 的 随机 变量 了 和 了 均 有 
(EI[XY])? < ELX3EIY3. 
解 假设 BLY ] 头 0， 否 则 ，P(Y = 中 =1， 有 EIXY]=0, 所 以 不 等 式 成 立 ， 我 们 有 


0<E [ > yy 
E[X 

















"] 
g yp a 
[+ 
= E[X’] — ?FEO + 一 E[Y2] 
= E[X’] 一 一 


即 ，(E[XY])? < E[X*]E[Y™. 


21.* 相关 系数 . ** 考 虑 随机 变量 了 和 了 的 相关 系数 
cov (X.Y) 


p(X,Y) = 一 一 二 二 一 一 ， 
varlX )}varlY) 





并 假定 它们 的 方差 为 正 ， 证 明 : 
(a) IP( 六 ,六 | < 1 提示 : 用 上 题 的 施 瓦 效 不 等 式 . 


(b) 如 果 YY 一 ELY] 是 六 一 ELX] 的 正 ( 或 负 ) 倍数 , 那么 P(X,Y) = 1 (或 者 
p(X, 了 = 一 1，， 相 应 地 ). 


(c) 如 果 p(X,Y)=1 (或 者 P(X,Y) = 一， 那么 ,Y 一 ELY] 概率 为 1 地 为 六 一 ELIX] 的 
正 ( 或 者 相应 地 为 负 ) 倍数 . 


解 (a) 记 芋 = 关 一 E[X] 以 及 Y =Y 一 E[Y] 用 施 瓦 效 不 等 式 , 得 到 


(ELXY])? 
E[X2]E[Y 


(p(X,Y)) = < 


所 以 有 IPtX, 了 | <1 
(b) 如 果 Y= aX， 那 么 





(c) 如 果 (P(X, 了 n= 1 ， 那 么 由 题 20 可 得 


5 |G Bl? | - -和 + 人 











E[Y?] 国 E[Y3] (ET) 
-BlX 20 lp) + EY glo” 
Bl (E[Y)? 


= E[X2](1— (p(X.,Y))’) 


因此 ， 概 率 为 1 地 ， 随 机 变量 


充 EIXY] 
E[Y 
等 于 0， 由 此 得 到 ， 概 率 为 1 地 ， 
E[X ELX] , 


X= 








p(X,Y)Y, 


py YE 


即 , 志和 的 倍数 关系 的 正 负 号 由 p(X, 了) 决定. 
4.3 节 条 件 期 望 和 条 件 方差 


22.， 设 一 个 赌 徒 每 次 启 或 输 的 概率 分 别 为 p 和 1-p, 而 且 每 次 输赢 与 以 前 独立 ， 当 
了 > 1/2 时 ,一 个 流行 的 赌博 方法 ( 称 为 凯利 策略 ) 是 每 次 赌 上 当前 资产 的 2p-1 部 分 . 设 
初始 资产 为 x 元 ， 运 用 凯利 策略 , 计算 经 过 n 次 赌博 之 后 资产 的 期 望 值 . 


23. 由 特 和 纳 特 在 约会 ， 他 们 所 有 的 约会 都 在 晚上 9 点 以 后 . 纳 特 总 是 在 9 点 的 时 候 到 
达 ， 而 帕 特 比 较 散 漫 , 她 到 达 的 时 间 是 均匀 分 布 在 8 点 和 10 点 之 间 的 . 记 了 是 8 点 和 幅 特 
到 达 时 间 的 间隔 时 间 . 如 果 帕 特 在 9 点 之 前 到 达 , 他 们 的 约会 将 持续 3 小 时 ， 如 果 由 特 在 
9 点 以 后 到 , 他 们 的 约会 持续 的 时 间 是 均匀 分 布 在 0 和 3- 了 小 时 之 间 的 . 他 们 的 约会 在 
他 们 见面 后 开始 ， 当 由 特 迟 到 的 时 候 ， 纳 特 会 很 生气 , 并 且 会 在 他 们 的 第 二 次 约会 由 特 
迟到 多 于 45 分 钟 的 时 候 结束 他 们 的 关系 . 所 有 的 约会 都 是 相互 独立 的 . 


(a) 纳 特等 待 由 特 的 小 时 数 的 期 望 是 多 少 ? 

(pb) 一 般 约 会 持续 时 间 的 期 望 是 多 少 ? 

(c) 在 他 们 分 手 之 前 他 们 约会 次 数 的 期 望 是 多 少 ? 

24. 一 位 退休 教授 到 办 公 室 的 时 间 服 从 早上 9 点 到 下 午 1 点 的 均匀 分 布 ， 然 后 他 做 一 件 


工作 ， 完 成 这 个 任务 后 就 离开 办 公 室 . 这 项 任务 完成 的 时 间 服 从 参数 为 
和 (y) = 11(5 一 切 的 指数 分 布 ， 这 里 y 是 9 点 和 教授 到 达 时 刻 的 时 间 段 长 度 . 









































_ 











(a) 教授 完成 任务 需要 时 间 的 期 望 是 多 少 ? 
(b) 任务 完成 时 刻 的 期 望 是 多 少 ? 


(c) 现在 ， 换 一 种 情况 .这 位 教授 除了 完成 他 本 人 的 任务 外 ， 他 还 有 一 个 博士 生 ， 这 
个 学 生 会 在 指定 的 一 天 去 找 教授 , 学 生 去 找 他 的 时 刻 服从 从 早上 9 点 到 下 午 5 点 的 均匀 分 
布 ， 如 果 这 个 学 生 没 有 找到 教授 ， 就 离开 并 且 不 回来 了 ， 如 果 找 到 了 教授 ， 他 将 会 和 
教授 一 起 竺 一定 的 时 间 ， 这 段 时 间 服 从 0 到 1 小 时 的 均匀 分 布 ， 教授 总 在 他 自身 的 任务 
上 人 花 同 样 的 时 间 ， 不 管 他 是 否 被 这 个 学 生 打 扰 ， 这 一 天 ， 教 授 和 学 生 在 一 起 的 时 间 的 
期 望 是 多 少 ? 教授 离开 办 公 室 的 时 间 的 期 望 是 多 少 ? 


25.* 证 明 : 对 任意 的 离散 型 或 者 连续 型 随机 变量 五 以 及 男 一 个 随机 变量 了 的 任意 
函数 g9(Y)， 都 有 ElX9(Y|Y] = g(YEIXIY] 


解 ” 假设 工 是 连续 的 . 由 第 3 章 的 条 件 期 望 公式 可 得 











DO 


E[Xg(Y)|Y = = . rg(y)fxy (zly)dr 


= gly) 三 Tfxly (TIy)dr 
一 JU)EIKIY = 
这 就 证 明了 随机 变量 PIX9(Y)Y] 的 每 一 个 实现 值 EIX9(Y)Y = 要 与 随机 变量 
9(\Y EIXIY] 的 每 一 个 实现 值 9(WEIXIY = 总 是 相等 的 , 所 以 这 两 个 随机 变量 也 总 是 
相等 的 . 
对 了 是 离散 的 情形 , 证 明 类 似 . 
26.#* 荆 和 了 是 独立 的 随机 变量 .用 全 方差 法 则 证 明 
var(XY) = (ELX])*var(Y) + (E[Y])’var(X) + var(X)var(Y). 
解 设 Z =XY. 全 方差 法 则 说 明 
var(2) = var(E[Z|X]) + Elvar(Z|X)]. 


我 们 有 
E[Z|X] = ELXY|X] = XE[Y), 
所 以 
var(E[Z|X]) = var( XE[Y]) = (E[Y])?var(X). 
进一步 地 ， 


varlZ|X) =varXYX) = X2var(Y|X) = X2varfY)， 


Elvar(Z|X)] = 了 ELX3var(Y) = (E[X])?var(Y) + var(X)var(Y). 
结合 前 面 的 关系 ， 我 们 得 到 
var(XY) = (EL[X])*var(Y) + (E[Y])*var(X) + var(X)var(Y). 

27.* 我 们 投掷 zn 次 不 均匀 的 硬币 , 且 每 次 正面 朝 上 的 概率 为 gq 值 的 大 小 是 随机 变 
量 4 可 能 的 取 值 , 9 的 均值 是 kK， 方 差 o? > 0. 设 Xi 为 第 7 次 投 折 结 果 的 伯 努 利 随 
机 变量 ( 即 第 7 次 投掷 硬币 正面 朝 上 , Xi = 1 否则 Xi = 0 中 .假设 X1,… ,Xn 在 给 定 
8 二 4 时 ， 是 条 件 独立 的 . 记 了 为 次 投掷 硬币 正面 彰 上 的 总 次 数 . 
(a) 运用 重 期 望 公式 ， 计 算 EIXi] 和 E[X] 
(b) 计算 CovtXi Ai Rn 独立 吗 ? 
(c) 运用 全 方差 公式 计算 var(X). 并 运用 (pb) 中 的 结果 来 验证 . 
解 (a) 运 用 重 期 望 公式 以 及 ElXil8] = 8%,， 

E[Xi] = EIE[Xi|IQ)] = EIQ] = &. 
因为 六 二 六 十 … 十 六， 则 有 

E[X] = E[X1] + + E[X,] = ny. 
(b) 当 1 考 j， 使 用 条 件 独立 假设 可 得 

E[XiXj|Q] = E[Xi|QIE[X;|IQ] = 9 
以 及 

E[XiX)] = E[E[XiX;|Q]] = EIQ", 
所 以 

cov(Xi, Xj;) = E[XiX)] — ELXiELX;] = EIQY] — 1 = 07. 

因为 covVtXi Ai) > 0 所 以 X11,… ,Xn 不 独立 . 
当 i=j 时 ， 注 意 到 Xi = X 


var(Xi) = E[X?| — (ELXi])’ 
= E[Xi] — (E[Xi])’ 


= 丰 一 12. 


(c) 运用 全 方差 法 则 和 六 1,…… ,六 n 的 条 件 独立 性 ， 我 们 有 


varlX) = Elvar(X|Q)| + varlE[X|Q)) 
= Elvar(Xi+-…+ Xn|Q)] + var(E[Xi +…+ Xn|Q)) 
= EnQ(l— QQ)| + var(n®) 
= nE[Q — Q] +nivar(Q@) 
7 7 人 全 
= n(py—H 一 II 十 PRO 


= ?一 1 +n(n—1)o’. 


为 运用 (b) 中 的 结果 来 验证 上 式 ， 计 算 如 下 : 


var() = 二 var( XI 十 … :十 天 mn) 

Var( Xi) 十 COV (Xi, Xj) 
1 [DT 

nvar(X1) 十 m(7 一 1)jcov(X1.Xo?) 


= ?LA 一 1 +n{n— 1)o2. 


28. 2 的 概率 密度 函数 .( 零 均值 ) 二 维 正 态 分 布 的 概率 密度 函数 具有 如 
下 形式 


| 





Jr(z;y) = ce ly), 


其 中 指数 部 分 的 函数 4l7, 丰 是 x 和 了 的 二 次 多 项 式 ， 


qz 男 一 ”20 一 p?) 


这 里 oz 和 0y 是 正常 数 ，P 是 满足 -1<p<1 的 常数 ，c 是 归 一 化 常数 . 
(a) 配方 ， 即 把 4(z; 奶 写成 (a7 一 二 7 其 中 a、5、7 是 常数 . 





(b) 证 明 和 了 分 别 是 期 望 为 0 方差 为 和 9% 的 正 态 分 布 . 
(c) 求 出 归 一 化 常数 c. 
(d) 证 明 在 给 定 了 =? 的 条 件 下 ,了 的 条 件 概率 密度 函数 是 正 态 的 ， 并 求 其 期 望 和 方 


AT 


(e) 证 明 了 和 了 的 相关 系数 是 [. 
(f) 证 明 和 了 的 相互 独立 的 充 要 条 件 是 它们 不 相关 . 


(g) 证 明 估计 误差 E[X| 让 一 XX 是 正 态 的 ， 均 值 为 0, 方差 为 (1 一 户 )oz ， 而 且 与 了 是 
独立 的 . 


解 (a) 可 将 dtz: 切 写成 下 面 的 形式 


gq(7z,y) = ql(z, Y) + qoly), 

















:二 





| 1 7 y y 
qi(7z,y) 一 = 攻 EE ol) S gq2(y) = 257 
(b) 由 (a) 可 得 


fyly) 一 ec / en(T,We-q(W dr 一 ce—92(y) / e—q(zy) dz. 
J—o0 





J—o0 
运用 变量 替换 
二 
1 一 - 
Vl1— pp 
可 得 
20 we 
| enedr = oz V1i—p / el/2du=o, V1 — PAV2r. 
J—00 J 一 oo 
所 以 


六 U = cos VT PVIre wh 





这 就 是 均值 为 方差 为 % 的 正 态 分 布 的 概率 密度 函数 ， 由 对 称 性 , 可 证 得 是正 态 
的 . 


(c) 了 的 概率 密度 函数 的 归 一 化 系数 一 定 为 WV270y). 所 以 
cor V1 — PV2r = 1/(V2ro,y), 





从 而 
l 
C= 一 天 一- 
2rozoyV1 —p 
(d) 因为 
fx ylZ, y) 一 gy) 
2roroyV1—p 

和 

fy(y) = e ?Ww, 

OyV27 


所 以 





fxr(zly) = Jortz, 久 _ , {= 一， 


-a 一 一 天 一 天 一 CD 一 一 
fy (ly) V2ror V1l—p 202(1 — pp) 


对 任意 给 定 的 及 这 是 均值 为 ?9zY/0 方差 为 呈 (1 -六 的 正 态 分 布 的 概率 密度 函数 
特别 地 , 我 们 有 EIXIY = 轨 = (poz/oy)y 和 ELX|Y] = (pozr/oy)Y. 


(e) 运用 期 望 公式 和 重 期 望 法 则 ， 可 得 


E[XY] = E[E[XY|Y]] 
= E[YE[X|Y] 
= E[lY(poz /oy)Y] 


= (poz/oy)E[Y2] 


= poroy. 


所 以 相关 系数 PIX,Y) 是 


ht pe 
OrOy OrOy 
(f) 人 不 和 hs 则 2=0， 而 且 联 合 概率 密度 函数 满足 
Pert 切 = zh ， 所 以 和 和 上 独立 ,反之 ， 若 不 和 上 独立 ， 则 它们 自动 不 相 
关 . 


(g) a (d) 可 知 ， 给 定 Y=y 的 条 件 下 ， 了 是正 态 的 , 均值 为 EIXIY = 让 方差 为 
(1 一 户 )oz。， 所 以 ， 入 十。 Y=y 的 条 件 下 ， 估 计 误 差 站 =E[XIY = 让 一 站 是 正 态 的 , 均 
值 为 0， 0 (1 一 户 )oz 即 








fxlr(z|y) = 





既然 评 的 条 件 概率 密度 函数 不 依赖 于 了 的 值 所 以 与 了 独立 ,而 且 上 述 条 件 概 
率 密度 函数 也 是 X 的 无 条 件 概率 密度 函数 . 


4.4 节 和 矩 母 函数 
29， 设 了 为 取 值 1、2、3 的 随机 变量 , 分 布 列 如 下 : 


求 X 的 矩 母 函数 并 且 用 它 得 到 前 三 个 矩 PIX]、 EIX]、 EIX 1 
30， 计 算 标准 正 态 随机 变量 了 的 PIX ] 和 EIX] 
31， 计 算 参数 为 A 的 指数 分 布 的 三 阶 、 四 阶 、 五 阶 逢 


32， 一 个 非 负 的 整数 随机 变量 了 有 以 下 两 个 表达 之 一 作为 它 的 矩 母 函数 : 


(1) M!({s) = ez2(e” -1). 
(2) M(s} = 
(a) 解释 为 什么 这 两 者 中 的 有 一 个 表达 式 不 是 算 母 函数 . 


(b) 用 真 矩 母 函 数 计算 PLX =0). 
33， 计算 具有 下 列 矩 母 函 数 的 连续 随机 变量 X 的 概率 密度 函数 : 


1 2 2 3 
人 








M(s) = 一 一 ， 

2—s8 3 3—8 

34， 设 一 个 足球 队 有 三 名 球员 ， 轮 流 罚 点 球 . 第 7 个 球员 踢 中 点 球 的 概率 为 pp， 而且 
与 其 他 球员 是 相互 独立 的 . 设 每 个 球员 有 一 次 罚 点 球 机 会 ， 记 了 为 三 名 球员 足球 完 后 
踢 中 的 总 次 数 . 运用 卷 积 公式 计算 了 的 分 布 列 ， 计算 了 的 矩 母 函 数 , 然后 再 计算 了 的 
分 布 列 .看 看 这 两 个 结论 是 否 一 致 . 

35. X 为 取 值 非 负 整数 的 随机 变量 ， 并 且 具 有 和 矩 母 函数 


- - nN_3s 
3 十 4e2s 十 2e3s 














这 里 c 是 一 个 常数 ， 计算 E[Xjpx(1) 以 及 EIXIX 


36. 不 人 2 是 独立 的 随机 变量 ,了 为 参数 为 1/3 的 伯 努 利 分 布 ， 了 是 参数 为 2 的 指数 分 
布 , 2 是 参数 为 3 的 泊 松 分 布 . 


(a) 考虑 新 的 随机 变量 0 = XY+ (1 一 XX)Z. 计算 Z 的 矩 母 函数 . 

(b) 计算 2Z + 3 的 和 矩 母 函数 . 

(c) 计算 YY +Z 的 矩 母 函数 . 

37. 一 个 比萨 店 提供 2 种 不 同 的 比萨 饼 ， 在 一 段 时 间 内 , 有 A 个 顾客 来 消费 ， 其 中 克 
是 取 非 负 整数 的 随机 变量 , 上 且 已 知 其 矩 母 函 数 是 Mx(s) = Ele™] 每 个 顾客 订 一 种 比萨 
饼 ， 而 且 订 哪 种 的 概率 都 是 相同 的 , 与 其 他 顾客 是 独立 的 . 请 以 Mx(*) 来 表述 预定 的 比 
萨 饼 的 种 类 数 的 期 望 . 

38.*# 了 是 取 值 为 非 负 整 数 的 离散 随机 变量 . Mls) 是 了 的 矩 母 函 数 . 

(a) 证 明 














P(X =0)= lim M's). 
下- 一 一 人 


(b) 用 (\a) 证 明 下 列 结果 : 如 果 了 是 服从 参数 为 和 的 二 项 分 布 的 随机 变量 , 我 们 
可 以 得 到 P(X =0)= (1 一 Pp 进一步 ,如果 是 服从 参数 为 的 泊 松 分 布 的 随机 变 
量 , 我 们 可 以 得 到 P(X =0)=e 


(c) 假设 了 已 知 为 只 取 大 于 或 者 等 于 已 知 整数 下 的 整数 . 运用 了 的 矩 母 函数 我 们 怎 
么 计算 P(X = 月 ? 


解 (a) 我 们 有 








M(s) = >_ P(X = 有 el 
一 





当 s 全 -co 时 ， 所 有 e(k > 0) 趋向 于 0, 所 以 我 们 得 到 3 一 一 人 
(b) 在 二 项 分 布 的 条 件 下 ， 我 们 可 以 得 到 矩 母 函数 

M(s) = (1—p+pe’)", 
所 以 Js = (1 一 P)" 在 泊 松 分 布 的 条 件 下 ， 我 们 有 


Ml{s) 一 eX(e“ 一 忆 


六 





(ce) 随机 变量 Y = X -大 只 取 非 负 整数 值 , 相应 的 矩 母 函 数 是 My(s) =。M(s) (参考 
例 4. 25). 因为 P(Y = 0) =P(X = 昼 ， 我 们 从 (a) 得 到 ， 


P(X =Kk)= lim e*M(s). 
§—?—O0 





39.* ”均匀 随机 变量 的 矩 母 函 x** 
(a) 计算 在 {aa+ 1 … ,四 上 均匀 分 布 的 整数 值 随机 变量 了 的 矩 母 函数 . 
(b) 计算 在 区 间 [4, 相 上 均匀 分 布 的 连续 随机 变量 了 的 矩 母 函 数 ， 
解 (a) 了 分 布 列 是 
i | 
0, 其 他 . 


和 窍 母 函 数 为 





D 一 QQ 十 1 < 
esa ]—e b—a+tl 
batl ] 一 es 


(b) 我 们 有 


b— a ~ s(b—a) 


b @sT esb 一 esd 
M(s) = Ele**] = / 一 一 dz = 一 
a 


40.* 假设 离散 随机 变量 X 的 矩 母 函 数 有 下 列 形式 


ee Ale’) 
M!(s) = Be， 
这 里 4 鸭 和 Bt 都 是 t 的 多 项 式 ， 假设 4 和 BW 没有 共同 根 , 而 且 4 的 次 数 
比 B(4) 的 小 ， 假 定 BWW 的 所 有 根 是 绝对 值 大 于 1 的 互 异 非 零 实 根 . 那么 可 以 看 出 
M(s) 可 以 写成 下 面 形式 





lim (1 — rie’ )}M(s) 

这 里 rm 了 是 Blt) 的 根 , 而 且 当 := 1,… ,Mm 时 ai; 是 等 于 “下 却 

的 常数 . 

(a) 证 明 了 的 分 布 列 为 
7 
2 ur, 若 有 = 0,1,……， 

Rs = 4 

0, 其 他 . 


注意 ! 对 于 大 的 了 的 概率 密度 函数 可 以 通过 7 来 逼近 , 这 里 7 是 最 大 的 i ( 假 
定 7 是 唯一 的 ) 的 相应 的 指标 . 


(b) 把 (a) 的 结果 推广 到 MM(s) = ewA(le”)/Ble’) 的 情况 ，b 为 整数 . 
解 (a) 对 于 所 有 的 满足 条 件 imle <1 的 s， 我 们 有 








因此 ， 


对 于 所 有 的 大 0 成 立 ， 并 且 对 于 及 <0，P(X = 有 如 =0. 注意 如 果 系 数 ai 为 非 负 实数 
的 话 ， 这 个 分 布 列 为 几何 分 布 列 的 混合 . 

(b) 在 这 种 情况 下 , Mls) 相当 于 和 矩 母 函 数 为 4le )/ Ble ) 的 随机 变量 通过 平移 b 以 后 
所 得 到 的 矩 母 函数 (参考 例 4. 25), 所 以 我 们 有 





yor 车 =b 十 1,…， 
P(X = k)= i=1 


0， 其 他 . 


4.5 节 随机 数 个 相互 独立 的 随机 变量 之 和 

41. 在 某 一 确定 时 间 , 进入 电梯 的 人 数 服从 参数 为 和 的 泊 松 分 布 . 每 个 人 的 体重 都 是 相 
互 独立 的 ， 并 且 服 从 100 磅 到 200 磅 之 间 的 均匀 分 布 . Xi 是 第 7 个 人 超出 100 磅 部 分 与 
100 的 比值 ， 例 如 , 如 果 第 七 个 人 重 175 磅 ， 那 么 X7 =0.75. 了 是 诸 Xi 的 和 . 

(a) 求 了 的 相关 算 母 函数 . 

(b) 用 和 矩 母 函数 计算 了 的 期 望 值 . 

(c) 用 重 期 望 法 则 证 明 (b) 的 答案 . 


42.， 构造 一 个 个 数 为 随机 的 独立 正 态 随机 变量 之 和 为 非 正 态 的 例子 (即使 固定 数目 的 独 
立正 态 随机 变量 的 和 是 正 态 随 机 变量 ). 

43. 一 个 摩托 车 手 过 四 个 红绿灯 , 过 每 个 灯 的 时 候 红 灯 的 概率 都 是 1/2， 在 每 个 灯 等 待 
0 0000 0 
总 时 间 . 


(a) 用 全 概率 定理 计算 了 的 概率 分 布 函数 和 相应 矩 母 函数 , 并 计算 不 超过 四 分 钟 的 概 
率 . 了 是 正 态 的 吗 ? 


(b) 把 了 看 作 个 数 为 随机 的 各 随机 变量 之 和 , 计算 了 的 相应 矩 母 函 数 . 
44. 计算 下 列 随机 变量 和 的 期 望 和 方差 : 





























GE 
其 中 w 自身 也 是 整数 随机 变量 的 和 ， 即 
N= K+:.…+ Ky, 


这 里 NA RE ,入 1,X2,… 都 是 独立 的 随机 变量 , NM, Ra K2,… 是 取 整 数值 且 
非 负 的 随机 变量 ，AKi1, K2,… 分 布 相同 ， 具 有 相同 的 均值 EIA] 和 方差 var(K). 
X1, AX2, 也 具 丰 相同 的 均值 ELX] 和 方差 var(X) 


(a) 用 ELM]、var(M)、E[IK]、var(K) 来 推导 EIN] 和 var(N). 

(b) 用 ELM]、var(M)、E[IK]、var(K)、 E[X]、 var(X) 来 推导 ElY] 和 var(Y). 

(c) 一 个 板 条 箱 里 有 V 个 纸 盒 ，W 服从 参数 为 p 的 几何 分 布 . 第 7 个 纸 盒 含有 到: 
个 小 零件 ，Ki 服从 参数 为 4 的 泊 松 分 布 , 每 个 小 零件 的 重量 服从 参数 为 和 的 指数 分 
布 . 假定 所 涉及 的 随机 变量 都 是 独立 的 ， 求 整个 箱子 的 总 重量 的 期 望 和 方差 . 


45.* 用 和 矩 母 函 数 方法 证 明 个 数 服 从 泊 松 分 布 的 诸 独 立 同 分 布 的 伯 努 利 随 机 变量 之 和 服 
从 油 松 分 布 . 


六 









































解 记 W 是 服从 参数 为 A 的 泊 松 分 布 的 随机 变量 . 六 (i = 1,… ,入 ) 是 独立 的 参数 为 p 
的 伯 努 利 随机 变量 ， 令 


ee a 
是 相应 的 和 . Z 的 矩 母 函 数 通过 W 的 矩 母 函数 得 到 ，W 的 矩 母 函数 为 
My(s) 一 ee 下 
Xi 的 矩 母 函数 为 
Mx(s)=1— p+ pe:. 
通过 Xi 的 矩 母 函数 代替 es， 我 们 得 到 
M1(s) = el-P+pe JI) 一 eple™l) 


这 就 是 参数 为 p 的 泊 松 分 布 的 矩 母 函 数 . 


\ 
第 5 章 极限 理论 
在 本 章 里 , 我 们 讨论 随机 变量 序列 的 渐 近 性 质 . 设 六 1, 六 2,…* 为 一 个 独立 同 分 布 的 随机 
变量 序列 , 其 公共 分 布 的 均值 为 几 方差 为 o> 定义 
六 


为 这 个 随机 变量 序列 的 前 项 之 和 . 本 章 的 极限 理论 研究 Sn 以 及 与 Sn 相关 的 变量 
在 n 二 0 时 的 极限 性 质 . 


由 随机 变量 序列 的 各 项 之 间 的 相互 独立 性 可 知 











var(Sn) = var(X1) +++ var(Xn) = no2. 
所 以 , 当 了 一 ce 时 , Sn 是 发 散 的 , 不 可 能 有 极限 . 但 是 样本 均值 
和 


nl n 
却 不 同 . 经 过 简单 计算 就 可 以 得 到 


2 


oOo 
E[Mn| = 1, var(Mn) = 一. 
n 





所 以 当 n 王 oo 时 , Mn 的 方差 趋 于 0. 也 就 是 说 , Mn 的 分 布 大 部 分 就 必然 与 均值 上 特 
别 接近 . 这 种 现象 就 是 大 数 定律 的 内 容 , 即 随机 变量 序列 Mr, 从 大 样本 意义 上 看 , 收敛 
于 Xi 的 均值 &. 按 通常 的 解释 , 当 样 本 量 很 大 的 时 候 , 从 了 抽取 的 样本 平均 值 就 是 
ELX] 大 数 定律 就 为 此 提供 了 一 个 数学 理论 基础 . 


下 面 考虑 另 一 个 随机 变量 序列 .用 5 减 去 nh 可 以 得 到 零 均 值 随机 变量 序列 5 一 np 
,然后 再 除 以 “Vm, 就 得 到 随机 变量 序列 








易 证 明 

ElZn| =0, varl(Zn)=1. 
因为 Zn 的 均值 和 方差 不 依赖 于 样本 容量 ,所 以 它 的 分 布 既 不 发 散 , 也 不 收敛 于 一 点 . 
中 心 极限 定理 就 研究 Zn 的 分 布 的 渐 近 性 质 , 并 且 得 出 结论 : 当 z 充 分 大 的 时 候 , Zn 的 
分 布 就 接近 标准 正 态 分 布 . 
极限 理论 的 用 处 很 多 . 


0 上 看 , 极限 理论 为 期 望 (或 概率 ) 和 独立 同 分 布 试验 序列 之 间 的 联系 提供 了 合 
理 的 解释 . 




















(b) 极限 理论 提供 了 Zn 等 随机 变量 序列 当 样本 量 充分 大 时 的 渐 近 性 质 . 与 精确 方法 
比较 , 为 了 了 解 Zn 的 性 质 , 精确 方法 需要 计算 Zn 的 分 布 列 或 概率 密度 函数 , 但 是 在 7 
充分 大 的 时 候 , 这 些 计算 是 非常 复杂 而 且 不 得 要 领 . 


(c) 在 使 用 大 量 观测 数据 集 时 , 极限 理论 在 统计 推断 中 发 挥 主要 的 作用 . 




















5.1 马尔 可 夫 和 切 比 雪夫 不 等 式 

本 节 介绍 一 些 重要 的 不 等 式 . 这 些 不 等 式 使 用 随机 变量 的 均值 和 方差 去 分 析 事件 的 要 

率 ,在 随机 变量 的 均值 和 方差 易于 计算 , 但 分 布 丰 知道 或 不 易 计算 时 ,这 些 不 等 式 就 
常 有 用 ， 


首先 介绍 马尔 可 夫 不 等 式 . 粗略 地 讲 , 该 不 等 式 是 指 , 一 个 非 负 随机 变量 如 果 均 值 很 小 ， 
则 该 随机 变量 取 大 值 的 概率 也 非常 小 . 


马尔 可 夫 不 等 式 
设 随机 变量 了 只 取 非 负 值 , 则 对 任意 a > 0,， 














现在 来 证 明 马 尔 可 夫 不 等 式 . 固定 正 数 a 定义 随机 变量 5w， 


中 省 和 本 

记 到 二 泥 极 

易 知 
Y,<xX 

总 成 立 , 从 而 

E[Y;] < EIX]. 
另 一 方面 

ElYs] = aP(Ys = a) = aP(X > a), 

所 以 


aP(X > a) < E[X] 


( 见 图 5. 1 给 出 的 马尔 可 夫 不 等 式 推导 过 程 示意 图 ). 











图 5.1 马尔 可 夫 不 等 式 推导 过 程 示意 图 . 图 (a) 是 非 负 随机 变量 X 的 概率 密度 函 
数 . 图 \b) 是 与 了 相关 的 随机 变量 2 的 分 布 列 . 分 布 列 的 构造 如 下 : 把 了 位 于 0 和 
a 之 间 的 所 有 质量 都 赋值 于 点 0, 大 于 等 于 a 的 质量 都 赋值 于 点 a. 因为 所 有 的 质量 
向 左 转 移 , 所 以 期 望 必 然 减 少 , 因此 


EI[X| > EIlYs] = aP(Ys = a) = aP(X > a) 








例 5.1 设 荆 服从 [0, 币 的 均匀 分 布 . 易 知 PIX]=2. 由 马尔 可 夫 不 等 式 可 得 


村 





有 
P(X >2)<==1, PKX>3)< 二 =0.67，P(X>4< 二 =0.5 
2 3 4 
与 真实 概率 进行 比较 
PLX >2)=0.5, P(X>3)=0.25, P(X > 4)=0. 


可 以 看 出 由 马尔 可 夫 不 等 式 给 出 的 上 界 与 真实 概率 相差 非常 远 . 
下 面 介绍 切 比 雪夫 不 等 式 . 粗略 地 讲 , 切 比 雪夫 不 等 式 是 指 如果 一 个 随机 变量 的 方差 非 
常 小 的 话 , 那么 该 随机 变量 取 远 离 均值 4 的 概率 也 非常 小 . 注意 的 是 : 切 比 雪夫 不 等 式 
并 不 要 求 所 涉及 的 随机 变量 非 负 . 

切 比 雪 夫 不 等 式 

设 随机 变量 了 的 均值 为 4, 方差 为 oz 则 对 任意 c > 0， 























2 


A | o 
Pl(IX—4|=>0) < 评 


下 面 来 证 明 切 比 雪夫 不 等 式 . 考虑 非 负 随机 变量 (XX 一作 令 a = c 使 用 马尔 可 夫 不 等 
式 , 可 得 





区 2 2 
全 人 让 全。 人 中 
记 


注意 , 事件 人 一 上 由 c 等 价 于 事件 | 一 证 > 6 所 以 


o? 
人 


P(IX -p>c)=P(X -pl >e’ 2) < 





在 证 明 切 比 雪夫 不 等 式 的 时 候 也 可 以 不 使 用 马尔 可 夫 不 等 式 , 其 推理 如 下 . 不 妨 设 了 是 
连续 型 随机 变量 , 定义 函数 





0， 省 区 一 加 之 
0 种 | 一 Bl| Se 


注意 , 对 任意 的 (7 一 让 ”> g(z), 所 以 


g(x) = 


02 = ) (z 一 中 2Fx(zldz > / TjFxizjdz = czP(|z 一 中 二 cc)， 





这 就 是 切 比 雪夫 不 等 式 . 
令 c= ko, 其 中 是 正 数 . 切 比 雪夫 不 等 式 的 另 一 个 版 本 是 : 


py 
0 | 
PLX 一 ko) = 7 二 一 . 
-p20) < = 





所 以 一 个 随机 变量 的 取 值 偏离 其 均值 & 倍 标准 差 的 概率 最 多 是 


切 比 雪夫 不 等 式 比 马 尔 可 夫 不 等 式 更 准确 , 即 由 切 比 雪夫 不 等 式 提供 的 概率 的 上 界 离 概 
率 的 真 值 更 近 . 这 是 因为 它 利 用 了 了 的 方差 的 信息 . 当然 一 个 随机 变量 的 均值 和 方差 也 
仅仅 是 粗略 地 描述 了 随机 变量 的 性 质 , 所 以 由 切 比 雪夫 不 等 式 提供 的 上 界 与 精确 概率 也 
可 能 不 是 非常 接近 . 


例 5.2( 续 例 5.1) 设 YX 服从 [0， 纪 的 均匀 分 布 . 现在 使 用 切 比 雪夫 不 等 式 来 给 出 事件 


失 一 让 二 工 的 概率 上 界 . 显然 = 4 三 2, 则 








2 


| 、 4 
P(X —2|>1)<—=- 
1 3 


由 于 概率 的 值 永远 不 超过 1, 所 以 这 个 不 等 式 并 不 带 来 任何 信息 . 


| 例子 , 设 了 服从 参数 入 = 1 的 指数 分 布 , 则 PIX] = vartX) = 1 对 任意 的 
> 1, 使 用 切 比 雪夫 不 等 式 可 得 











P(X>¢c)=P(X—-1>c-1)<P(X-1>c-1)< 





(5 一] 
而 真实 概率 是 PX >cj=e .可 以 看 出 由 切 比 雪夫 不 等 式 给 出 的 上 界 比较 保守 . 


例 5. 3 ( 切 比 雪夫 不 等 式 的 上 界 ) 设 随机 变量 了 取 值 空 z 间 是 la, 外 ,现在 我 们 证 明 
"< ayy /4. 因此 , 如 果 o? 未 知 , 我 们 就 可 以 用 上 界 (6 一 Q) /4 来 代替 切 比 雪夫 不 等 
式 中 的 o2 即 








, (b—a) 
Pllzi—y|= 0) < 


4c ”对 任意 的 c> 0 成 立 . 
现在 来 证 明 0” < (5 一 o)*/4. 对 任意 的 常数 1, 我们 有 
E[(X 一 7) 们 = 也 [X3] —2E[X]y+~Y 
而 且 该 二 次 多 项 式 在 7 = EIX] 处 达到 极 小 . 因此 对 任意 的 常数 1, 我 们 有 
oz 一 了 E[(X 一 EX < E[(X — ~»)1. 


令 1Y= (e+b)/2 可 得 


而 过 时 (* _ a+ ") EX— (Xl+ (一 oa) < (6 — Co) 
2 4 4 


其 中 等 式 可 以 通过 直接 计算 来 验证 , 最 后 一 个 不 等 式 成 立 的 原因 是 : 当 zs lo 中 时 


(rT—a)lr—b)<0. 





























上 界 ”< (5 一 Q) /4 可 能 会 非常 保守 , 但 是 在 对 了 的 信息 缺乏 更 深 的 认识 的 情况 下 , 这 
个 上 界 很 难 更 加 精确 . 当 了 各 以 1/2 的 概率 只 取 极 端 值 a 和 4b 时 ,0 = (5 一 0) /4. 


5.2 弱 大 数 定律 


弱 大 数 定律 是 指 独立 同 分 布 的 随机 变量 序列 的 样本 均值 , 在 大 样本 的 情况 下 , 以 很 大 的 
概率 与 随机 变量 的 均值 非常 接近 . 


0 1,X2,…。 公共 分 布 的 均值 为 4 方差 为 o2. 定义 样 





l 
Mn = = 2 Xi, 
则 
BM = BEG+…+EDl _ np 
n n 
再 运用 独立 性 可 得 
vaIr(X1 十 … :十 和 mn varl XI1) 十 .十 var(Xn) no? om 


varl M1) Ts aas apm 一 一 有 一 一 一 
nn nn nn n 


利用 切 比 雪夫 不 等 式 可 得 








ne ”对 任意 的 。>0 成 立 . 
注意 , 对 任意 固定 的 > 0, 上 面 不 等 式 的 右边 在 n 一 ce 时 趋 于 0, 于 是 就 得 到 如 下 的 弱 
大 数 定律 . 这 里 要 提 到 的 是 : 当 Xi 的 方差 无 界 时 , 弱 大 数 定律 仍然 成 立 , 但 是 需要 更 严 


格 而 精巧 的 证 明 , 在 此 省 略 . 因此 , 在 下 面 陈述 的 弱 大 数 定律 中 , 只 需要 一 个 假设 , 即 
EIXi] 是 有 限 的 . 


弱 大 数 定律 
设 X11, 六 2,… 独立 同 分 布 , 其 公共 分 布 的 均值 为 凡 则 对 任意 的 e>0, 当 nn 一 ox 


时 ， 
> -] 5 人 


弱 大 数 定 律 是 指 对 于 充分 大 的 忆 Mn 的 分 布 的 大 部 分 都 集中 在 A 附近 . 设 包含 A 的 
一 个 区 间 为 一 esA+ 电 则 am 位 于 该 区 间 的 概率 非常 大 . 当 n 一 ce 时 , 该 概率 趋 于 
1. 当然 当 。 非常 小 时 , 则 需要 更 大 的 使 得 Mn 以 很 大 的 概率 落 在 该 区 间 内 . 


例 5. 4( 概 率 与 频率 ) ”在 某 个 试验 中 , 考虑 一 个 随机 事件 4. 记 P= Pl4) 为 事件 4 发 
生 的 概率 . 现在 假定 在 i 记 Mn 为 了 次 独立 重复 试验 中 事件 4 
发 生 的 次 数 占 总 试验 次 数 的 比例 , Am 通常 称 为 事件 4 的 频率 . 注意 到 


Pi — 4H| >e) < 


























Xl vor Xn 


p(n n>0=P( 一 以 























Xl | pp. 


n 


其 中 Xi =1 表示 事件 4 发 生 , 否则 Xi = 0. 特别 地 有 ELXH = 忆 运用 弱 大 数 定律 可 以 
证 明 : 当 充分 大 时 , 频率 以 很 大 的 概率 落 在 的 e 邻 域 里 . 也 就 是 说 频率 是 p 的 
一 个 很 好 的 估计 . 换 名 话说 , 可 以 将 事件 4 发 生 的 频率 解释 为 概率 忆 


例 5. 5 (选举 问题 ) 设 乙 为 选民 支持 某 候选 人 的 比例 . 现在 “随机 ”地 对 w 个 选民 
进行 调查 , 然后 计算 这 个 选民 对 该 候选 人 的 支持 率 Mn. 我们 将 Mn 视 为 p 的 估计 ， 
并 研究 它 的 性 质 . 


“随机 ”的 含义 是 指 这 个 选民 是 所 有 选民 中 的 独立 同 分 布 样本 . 所 以 每 个 选民 的 回 
答 也 可 以 视 为 独立 的 伯 努 利 随机 变量 Xi , Xi=1 表示 选民 文 持 候选 人 , 或 “试验 成 
功 ”. 成 功 的 概率 为 p, Xi 的 方差 为 0 = Pll 一 P. 利用 切 比 雪夫 不 等 式 可 得 

p(l1 一 p) 


ne 


M, = 








P(|[M,—p|>e) < 





| Fe 1 
当然 参数 p 的 真 值 是 未 知 的 . 另外 注意 到 ?"“? 人 二 所 以 


1 
P(IM,—p|>e< 


可 “ 
472E< 





比如 ,ce=0.1 且 n= 100 时 ， 


1 
P(|Mioo —p| > 0.1) < 0.25. 


~ 4x100x(0.1)2 


也 就 是 说 ,在 n = 100 的 情况 下 , 估计 量 Mn 与 p 的 真 值 相差 大 于 0. 1 的 概率 不 超过 
0. 25. 


现在 考虑 男 一 个 问题 , 假设 我 们 希望 估计 量 与 真 值 p 相差 不 到 0. 01 的 概率 至 少 超过 
95%, 那么 至 少 需要 调查 多 少 人 ?现在 我 们 唯一 可 以 使 用 的 就 是 不 等 式 


1 
PUT — p| > 0.01) < 一 一 一. 
| ?|> ) = 4n(0.01)2 

















为 满足 要 求 , 只 需求 充分 大 的 ,使 得 


1 
一 一 一 莹 1 一 0.95 = 0.05, 
4n(0.01): 


由 上 式 可 得 二 50 000. 取 这 样 的 就 能 满足 我 们 的 要 求 , 但 是 基于 切 比 雪夫 不 等 式 得 
到 的 结论 仍然 很 保守 . 更 好 的 结论 将 在 5. 4 节 中 讨论 . 





5.3 依 概率 收敛 


{ 弱 } 大 数 定律 可 以 表述 为 “Mn 收 全 于 A”. 但 是 , 既然 9 2 是 随机 变量 序列 , 而 
不 是 数列 , 所 以 这 里 的 “收敛 ”的 含义 不 同 于 数列 的 收敛 , 应 该 给 予 更 明确 的 定义 . 下 面 
先 给 出 数列 的 收敛 的 定义 , 以 便于 进行 比较 . 

数列 的 收敛 


设 ,2,"… 是 一 实数 数列 , a 为 一 实数 , 如 果 对 任意 的 “> 0, 存在 正 整 数 no, 使 得 
对 所 有 的 n 三 no 都 有 


lan—al<&, 


则 称 数 列 Un 收敛 于 a, 记 为 Jim Gn 一 a 





所 以 , 如果 二 “一 则 对 任意 给 定 的 。> 0, 当 也 充分 大 时 , om 必须 在 a 的 e 邻 域 
内 . 


: i,】?,… 是 随机 变量 序列 (不 必 相 互 独立 ), a 为 一 实数 , 如 果 对 任意 的 ec>0 都 


lim Pl|Yh—al 二 6 =0. 
下 一 CO 
则 称 到 依 概率 收敛 于 a 


根据 这 个 定义 , 弱 大 数 定律 就 是 说 样本 均值 依 概率 收敛 于 真 值 4. 更 一 般 地 , 利用 切 比 雪 
夫 不 等 式 可 以 证 明 : 如 果 所 有 的 苞 具有 相同 的 期 望 , 而 方差 var(25) 趋 于 0, 则 浆 依 
概率 收敛 于 儿 

如 果 随 机 变量 序列 ,3,…- 有 分 布 列 或 者 概率 密度 函数 , 且 依 概率 收敛 于 a 则 根据 依 
概率 收敛 的 定义 , 对 充分 大 的 书 丈 的 分 布 列 或 概率 密度 函数 的 大 部 分 “质量 ”集中 在 
a 的 。 邻 域 Q 一 6a+q 内 ,所 以 依 概率 收敛 的 定义 也 可 以 这 样 描述 ， 对 任意 的 。> 0 
和 5 > 0, 存在 na 使 得 对 所 有 的 m > mo 都 有 


P(lY, — al>€) <5. 


下 面 称 e 为 精度 ,5 为 置信 水 平 . 依 概 率 收敛 的 定义 有 如 下 的 形式 ， 任意 给 定 精度 和 和 置 
害 水 平 ,在 元 充分 大 时 等 于 有 & 


例 5.6 设 六 1,X2,… 独立 同 分 布 ,服从 [0,1] 上 的 均匀 分 布 ,定义 


Yn = min{X1,:… ,Xn}. 























当 只 增 大 时 , Yh 的 值 不 会 增 大 , 有 时 还 会 减 小 ( 当 Xn 的 值 比 前 面 得 到 的 值 小 时 ), 所 以 
Yh” 从 直觉 上 看 可 能 收敛 于 0. 实际 上 , 对 任意 的 > 0, 利用 Xn 的 独立 性 可 以 得 到 


Pl|Yn —0|>e)=P(X>e6 ,Xn>e)=P(X>e):…P(X,>e = 
(1 — e)". 


lim P( 次 一 0| > €) = lim (1 — e)” = 0. 
上 式 对 任意 的 e> 0 都 是 成 立 的 ,所 以 h 依 概率 收敛 于 0. 


例 5.7 设 随机 变量 了 服从 参数 和 = 1 的 指数 分 布 . 对 任意 的 正 整数 hb 定义 
Yn = 二 了 jn. (注意 该 随机 变量 序列 不 是 独立 的 . ) 现在 研究 是否 依 概率 收敛 于 0. 


实际 上 , 对 任意 的 “> 0, 可 以 得 到 


P02e)=P(e= PY 2ne) = 








于 是 ， 
Jim Pl|Yh —0| > 6) = im en 一 10. 
上 式 对 任意 的 se>0 都 是 成 立 的 ,所 以 Yh 依 概 率 收 剑 于 0. 


人 们 很 容易 认为 , 如 果 丈 依 概率 收敛 于 实数 a 则 En] 也 应 该 收敛 于 a 下 面 的 例子 
说 明 这 个 结论 是 不 对 的 , 从 而 说 明 依 概 率 收 敛 的 定义 有 局 限 性 . 


例 5.8 考虑 离散 随机 变量 序列 7, 其 分 布 列 为 


1 
上 一 大 y=0， 


见 图 5. 2. 则 对 任意 的 e> 0 有 
lim P(|| > ee) = lim—=0. 


ro0 了 


所 以 3 依 概率 收敛 于 0. 另 一 方面 , 当 一 co 时 , ED 一 二 如 一 全 oo 


1—1/n 
六 的 分 布 列 


1/n 





0 n2 


图 5.2 例 5.8 中 随机 变量 区 的 分 布 列 


5.4 中 心 极限 定理 


根据 弱 大 数 定 律 , 样本 均值 Mr = (1 十 … 十 Zn)/n 的 分 布 随 着 n 的 增 大 , 越 来 越 集 中 
在 真 值 上 的 邻 域内 . 特别 地 , 在 我 们 的 论证 中 , 假定 Xi 的 方差 为 有 限 的 时 候 , 可 以 证 明 
am 的 方差 趋 于 0. 另 一 方面 ,前 n 项 和 


Sn 一 XI 十 … 十 Xn = nM 
的 方差 趋 于 ce, 所 以 Sn 的 分 布 不 可 能 收敛 . 换 一 个 角度 , 我 们 考虑 5n 与 其 均值 ?4 


的 偏差 5 一 mp 然后 乘 以 正比 于 LV 的 刻度 系数 . 乘 以 刻度 系数 的 目的 就 是 使 新 的 
人 固定 的 方差 . 中 心 极限 定理 指出 这 个 新 的 随机 变量 的 分 布 趋 于 标准 正 态 分 


























具体 地 说 , 设 和 1, 六 2,…* 是 独立 同 分 布 的 随机 变量 序列 , 均值 为 几 方差 为 o2 定义 





om 一 PH AI 十 十 An 一 TH 
Zn 三 一 于 一 三 一 
Vno Vno 
经 过 简单 计算 可 以 得 到 
EX + -+ Xs] —np 
E Zn G5 ll. 
[Zn] i 
Var( 和 i 二 + 十 Xn) var(X1) 十 … 十 VarlXn) no 
VarllZn) = 和 ==1. 

no” no” no” 


中 心 极限 定理 


设 1, 六 2.… 是 独立 同 分 布 的 随机 变量 序列 , 序列 的 每 一 项 的 均值 为 4 方差 为 0 
2 











即 
hn 全 本人) 对 任意 的 x 成立. 


中 心 极限 定理 是 一 个 非常 具有 一 般 性 的 定理 . 对 于 定理 的 条 件 , 除了 序列 为 独立 性 同 分 
布 的 序列 之 外 , 还 假设 各 项 的 均值 和 方差 的 有 限 性 . 此 外 , 对 Xi 的 分 布 再 也 没有 其 他 的 











要 求 . Xi 的 分 布 可 以 是 离散 的 、 连 续 的 或 是 混合 的 . 本 章 末尾 的 习题 对 此 定理 提供 了 证 
明 概要 . 
这 个 定理 不 仅 在 理论 上 非常 重要 , 而 且 在 实践 中 也 是 如 此 . 从 理论 上 看 , 该 定理 表明 大 样 
本 的 独立 随机 变量 序列 和 大 臻 是正 态 的 .所 以 当 人 们 遇 到 的 随机 量 是 由 许多 影响 小 但 是 
独立 的 随机 因素 的 总 和 的 情况 , 此 时 根据 中 心 极限 定理 就 可 以 判定 这 个 随机 量 的 分 布 是 
正 态 的 . 例如 在 许多 自然 或 工程 系统 中 的 白 噪 声 就 是 这 种 情况 . 

从 应 用 角度 看 , 中 心 极限 定理 可 以 不 必 考 虑 随机 变量 具体 服从 什么 分 布 , 避免 了 分 布 列 


和 概率 密度 函数 的 繁琐 计算 . 而 且 , 在 具体 计算 的 时 候 , 人 们 只 需 均 值 和 方差 的 信息 以 及 
简单 查阅 标准 正 态 分 布 表 即 可 . 


5.4.1 基于 中 心 极限 定理 的 近似 

中 心 极限 定理 允许 人 们 可 以 将 和 的 分 布 看 成 正 态 分 布 , 从 而 可 以 计算 与 Z 相关 的 随 
机 变量 的 概率 问题 . 因为 正 态 分 布 在 线性 变换 下 仍然 是 正 态 分 布 , 所 以 可 以 将 Sr 视 为 
均值 为 mh, 方差 为 no? 的 正 态 随机 变量 . 

基于 中 心 极限 定理 的 正 态 近似 

令 中 = 站 十 Xn, 其 中 ANXoa 是 独立 同 分 布 的 随机 变量 序列 , 均值 为 4 
方差 为 nc2 当 n 充分 大 时 ,概率 P(S") 可 以 通过 将 Sn 视 为 正 态 随机 变量 来 近似 
计算 . 步骤 如 下 : 

(1) 计算 5 的 均值 mh 和 方差 na? 

(2) 计算 归 一 化 后 的 值 2= (c 一 nA)/(Vno); 


(3) 计算 近似 值 















































P(Sn, < ce) PB(z), 
其 中 Blz) 可 从 标准 正 态 分 布 表 查 得 . 
例 5.9 飞机 上 运载 100 件 包 庄 , 每 件 包 庄 的 重量 是 独立 的 随机 变量 , 且 在 5 磅 到 50 磅 之 
间 均 匀 分 布 .那么 这 100 件 包 庄 的 总 重量 超过 3000 磅 的 概率 是 多 少 ?直接 计算 总 重量 的 分 


人 但 是 使 用 中 心 极限 定理 , 可 以 很 容易 计算 该 概率 的 









































现在 计算 Fltslo > 3000) 其 中 >o 是 这 100 件 包 奢 的 总 重量 . 每 件 包 右 的 平均 重量 和 方 
差 是 








然后 计算 标准 正 态 值 





3000 一 100 x 27.5 250 
ee = 1.92. 
TO0 X16875 129.9 


V100 x 168.75 





使 用 标准 正 态 近 似 , 可 以 得 到 
PlSi% < 3 000) = ®(1.92) = 0.972 6. 
所 以 
P(Sim > 3000) =1— P(Si00 < 3 000) 1—0.9726= 0.0274. 


例 5.10 机 器 对 零件 进行 加 工 , 每 次 加 工 一 个 零件 . 对 于 不 同 的 零件 , 其 加 工时 间 是 相 
互 独立 并 具有 相同 分 布 的 随机 变量 , 其 公共 分 布 为 时 间 区 间 [1, 5] 上 的 均匀 分 布 . 设 在 
320 个 单位 时 间 之 内 所 加 工 的 零 部 件 总 数 为 Na20 , 问 Na20 至 少 为 100 的 概率 是 多 少 ? 


我 们 不 能 将 Mw 表示 为 独立 随机 变量 的 和 , 但 是 可 以 换 一 种 观点 来 处 理 问题 . 记 六 i 为 
第 re 而 Si%m 三 六 1 十 … 十 六 I00 是 前 100 个 零件 的 加 工 总 时 间 ， 事件 
{Naz0 > 100} 和 事件 {S100 < 320} 是 同一 个 事件 ， 而 后 者 中 的 ?io 是 独立 同 分 布 的 随机 
变量 之 和 ， 它 的 分 布 可 用 正 态 分 布 来 近似 . 注意 到 

一 卫 [Xi = 3,0° 2 一 var(X; )= (5— 1)2) /12=4/ 3. 计 算 

















320 一 nx 320 一 300 


ovVn V100 x 4/3 


则 概率 近似 为 
PlSim < 320) 六 B(1.73) = 0.958 2. 


若 Xi 的 方差 未 知 , 但 方差 的 上 界 已 知 , 使 用 正 态 近似 的 方法 可 以 得 到 人 们 感 兴趣 的 事 
件 的 概率 上 界 . 


例 5. 11 (选举 问题 ) ”现在 重新 考虑 例 5. 5 的 选举 问题 . 设 对 2” 个 选民 进行 调查 , 记录 
下 他 们 赞成 某 候 选 人 的 比例 am ， 








X1 十 ws- 二 pe 


n 


Mn = 


其 中 Xi 是 被 调查 的 第 7 个 选民 的 态度 , Xi = 1 表示 选民 7 文 持 某 候选 人 , Xi 二 0 表 
示 选 民 7 反对 某 候选 人 . 假设 p 是 这 个 候选 人 在 全 体 选民 中 的 支持 率 , 则 Xi 是 服从 
参数 为 p 的 伯 努 利 随机 变量 . 故 Mn 的 均值 为 p, 方 差 为 以 一世/ 利用 中 心 极 限定 
理 , Mn 近似 服从 正 态 分 布 . 


下 面 计算 概率 Pa 一 了 | 写 ，e 是 估计 精度 , 即 计算 候选 人 这 个 人 中 的 支持 率 与 在 
全 体 选 民 中 的 支持 率 相差 大 于 e 的 概率 . 由 正 态 分 布 的 对 称 性 , 可 得 


Pl(|M, 了 | 之 €) 富 2P(UAT。 一 卫 2 6). 


显然 Mn 一 了 的 方差 为 1L 一 局/ 依赖 于 未 知 参数 _p, 所 以 也 是 未 知 的 . 注意 , 偏离 均值 
的 概率 随 着 方差 的 增 大 而 增 大 , 所 以 为 了 得 到 概率 PlMn 一 了 的 上 界 , 人 们 可 以 假 














设 Mn 一 了 有 最 大 的 方差 , 即 当 了 P= 1/2 时 ,方差 为 1/(4n). 为 此 , 先 计 算 


= 二 2eVn, 








所 以 
P(M,— p>e) <1- ®(2)=1— SB(2eyn). 
例如 , 当 n=100 且 e=0.1 时 ,假设 方差 取 最 大 值 , 晶 Mn 是 近似 正 态 的 , 此 时 
P([Mn —p|>0.1) 2P(Mn —p>0.1) 


<2—28(2.0.1:V100) =2— 28(2) = 0.046. 


由 此 得 到 PllMn 一 了 三 0.1) 的 上 界 为 0. 046, 这 比 在 例 5. 5 中 使 用 切 比 雪夫 不 等 式 得 到 的 
上 界 0. 25 要 小 得 多 , 所 以 更 准确 . 


现在 考虑 另 一 个 问题 . 如 果 和 希望 估计 MM 与 真 值 p 的 差距 为 0. 01 之 内 的 概率 至 少 是 
0. 95, 则 样本 容量 有 应 该 多 大 ?现在 我 们 假设 最 坏 的 情况 发 生 , 此 时 Mn 的 方差 达到 最 
大 , 这 个 假设 引 向 条 件 











2 —28(2.:0.01: Vn) < 0.05, 
妇 ] 
下 (2 .0.01. Vn) > 0.975. 
根据 正 态 分 布 表 , 可 查 得 1.96) = 0.975, 所 以 上 式 等 价 于 
2.0.01. Vn > 1.96, 
妇 ] 


1.962 Ne 
n>———— =9604. 
4.(0.01)? 


这 个 结果 是 比较 理想 的 , 若 使 用 切 比 雪夫 不 等 式 , 需要 50 000 个 样本 才能 保证 上 述 结论 . 


当 n 二 oo 时 , 正 态 近似 就 会 越 精 确 , 但 是 在 实践 中 , 样本 容量 nz 是 固定 的 、 有 限 的 . 所 
以 须知 道 多 大 时 正 态 近似 的 结果 是 可 信 的 .可惜 的 是 , 没有 简单 和 普 训 的 准则 来 判 
斯. 这 要 依赖 于 Xi 的 分 布 是 否 与 正 态 分 布 接近 , 特别 地 , 还 依赖 于 Xi 的 分 布 是 否 对 
称 . 比如 说 , 假设 Xi 是 均匀 分 布 , 则 Ss 就 已 经 与 正 态 分 布 接近 了 . 但 是 如 果 Xi 是 指 
数 分 布 , 那么 必须 要 充分 大 , Sn 的 分 布 与 正 态 分 布 才 接近 . 进一步 , 使 用 正 态 近 似 计 
算 PlSn < 0) 的 时 候 , 其 近似 的 程度 与 c 的 值 有 关 . 一 般 来 说 , 如 果 c 在 sr 均值 的 附 
近 , 其 精度 会 更 高 一 些 . 


5.4.2 二 项 分 布 的 棣 莫 弗 - 拉 普 拉 斯 近似 




















服从 参数 为 x 和 p 的 二 ee Sn 可 以 看 成 2 个 服从 参数 为 的 伯 努 
利 分 布 的 独立 随机 变量 X1,…… ,An 


田 让 
显然 





n= EXi|=p, o= Vvar(Xi) = Vp(l —p). 


现在 使 用 中 心 极限 定理 去 近似 事件 {< Sn 三 小 的 概率 , 其 中 k 和 7 是 给 定 的 整数 . 
实际 上 , 运用 事件 的 等 价 性 


_ 太一 大 一 PP Sn— np [—np 
E<S,<! Ns 
~ Vnpll— p) vnpll —p) 
Sn—np 


将 事件 表达 成 标准 化 随机 变量 的 形式 . 利用 中 心 极限 定理 可 知 V7Pl1 一 近似 服从 标 
准 正 态 分 布 , 所 以 


一 S， 一 二 
Pl(k<S5,<N)=P i onp 1 一 7 i 


Vnpll 一 也 ) Vnpll —p) er 
[— np 和 大 一 np 
Vnp(l—p) Vnp(l—p) | 
述 近 似 方 法 等 价 中 ei np 方差 为 PP 一 了 ) 的 正 态 分 布 . 图 5. 3 表明 ， 
如 果 k 和 了 7 蔡 换 成 “ 2 和! 2, 则 概率 的 近似 结果 更 加 准确 , 下 面 给 出 相关 的 近似 


公式 . 
项 分 布 的 棣 莫 弗 - 拉 普 拉 斯 近似 
设 Sn 是 服从 参数 为 和 p 的 二 项 分 布 ,7 充分 大 ,Kk 和 7 是 非 负 整数 , 则 





起 二 区 ) (5 
Psss0se( 一 | 一 和 | 一 |. 
寺村 区 ) 和 村 


本 


图 5.3 正 态 近似 将 二 项 分 布 随机 变量 3 看 成 均值 为 np 方差 为 "Pl1 一 了) 的 正 态 
分 布 . 图 中 显示 二 项 分 布 的 分 布 列 和 相应 的 正 态 概率 密度 函数 . (a) 概率 值 

FS Sn 1) 可 以 由 正 态 概率 密度 函数 从 K 到 7 进行 积分 计算 , 即 图 形 中 阴影 部 分 
的 面积 , 使 用 这 种 方法 , 当 这 三 时 ， 概率 FE < Sn 4) 就 会 近似 为 0. (b) 弥补 这 个 缺 


陷 的 方法 就 是 用 区 间 2" + 使 用 这 种 想法 ， 

P(k < 5, < 7) 可 以 用 正 态 概率 密度 函数 在 区 间 ”3''* 引 内 的 面积 来 近似 

当 p 靠近 1/2 时 , Xi 的 分 布 列 是 对 称 的 , 当 4 接近 40 或 50 时 , 使 用 上 述 近似 方法 就 能 得 
到 人 好 的 省 果 . 当 靠近 1 或 0 时 , 这 个 近似 结果 就 不 好 , 这 时 需要 更 大 的 才能 得 到 相 
站 


例 5.12 设 Sn 是 服从 参数 为 大 36 和 p=0.5 的 二 项 分 布 , 则 


36 
P(Sn < 21) = 二 他 om 536 ~ 0.878 5 


k=0 








是 精确 的 概率 . 
使 用 中 心 极限 定理 , 知 端点 不 经 过 修正 , 上 述 概率 可 以 近似 为 


PILS， 二 21) 看 21 一 mpP 一 包 (无 呈 ) = TB(1) = 0.841 3 
(~ Vnpll p) 号 \ 


若 端点 经 过 修正 , 可 以 得 到 


21.5— 21.5— 18 
| (2 = ®(1.17) = 0.879. 
vnpll —p) 3 


上 述 计算 说 明 , 端点 经 过 修正 以 后 , 近似 的 概率 与 精确 概率 非常 接近 . 
使 用 端点 修正 技术 , 同样 可 以 近似 5 在 单 点 的 概率 , 比如 ， 
19.5 一 18 18.5 一 18 
P(Sn, = 19) ~ 2 一 下 2 = 0.6915 一 0.567 5 = 
0.124. ( ( 


这 也 与 真 值 





P(Ss, = 19) 人 0.5% ~ 0.125 1 
om = 二 13] 一 19 :9 一 小 上 2<D 


5.5 强大 数 定律 


强大 数 定 律 与 弱 大 数 定 律 一 样 , 都 是 指 样本 均值 收敛 于 真 值 上 但 是 , 它们 强调 的 是 不 同 
的 收敛 类 别 . 


下 面 是 强大 数 定律 的 一 般 陈 述 . 在 本 章 末尾 的 习题 中 ,在 Xi 的 四 阶 和 矩 有 限 的 附加 条 件 
之 下 给 出 了 证 明 . 


强大 数 定律 


设 六 1, 六 2,… 是 均值 为 A 的 独立 同 分 布 随机 变量 序列 , 则 样本 均值 
Nh 一 (X] si X2 J Xn)/n 以 概率 1 收敛 于 及， 即 


Xl] TT 不 2 A Xn 
PI Hil. 
no0 n 


为 解释 强大 数 定律 , 还 是 采用 样本 空间 的 概率 模型 来 解释 . 由 于 试验 是 由 无 穷 长 的 一 串 

独立 重复 的 小 试验 序列 组 成 , 每 次 试验 的 结果 , 就 是 随机 变量 序列 Xi X2,… 的 一 个 数 

据 的 无 穷 序列 zl,zz,… 所 以 ,人们 可 以 把 样本 空间 定义 为 无 穷 序列 “= (z1,72,…) 的 

集合 : 任何 一 个 无 穷 的 数列 都 可 能 是 试验 的 一 个 结果 . 现在 考虑 样本 空间 中 的 一 个 集合 

4 也:2= (zuz 外 4 中 的 样本 满足 如 下 条 件 : 在 极限 意义 下 的 样本 均值 为 1, 即 
IT1 十 IZo2 十 … 十 In 


(Tl, To ) EA 1m 一 一 几 
no0 7 

















强大 数 定律 是 指 样本 空间 中 几乎 所 有 可 能 的 样本 点 都 集中 在 这 个 特殊 的 子 集中 . 换 句 话 
说 , 所 有 不 在 4 中 的 可 能 结果 组 成 的 子 集 的 概率 为 0. 


强大 数 定律 与 弱 大 数 定律 的 区 别 是 细微 的 , 需要 仔细 说 明 . 弱 大 数 定律 是 指 Mn 显著 性 
偏离 A 的 事件 的 概率 PUM 一 川 9 在 n 一 oo 时 趋 于 0. 但 是 对 任意 有 限 的 n, 这 个 
概率 可 以 是 正 的 . 所 以 可 以 想象 的 是 , 在 Mn 这 个 无 穷 的 序列 中 , 常常 有 Mn 显著 偏离 
H. 弱 大 数 定律 不 能 提供 到 底 有 多 少 会 显著 性 偏离 几 但 是 强大 数 定律 却 可 以 . 根据 强大 
数 定律 , Mn 以 概率 1 收敛 于 kK. 这 意味 着 , 对 任意 的 “> 0, 偏离 | Mm 一 川 超过 e 的 只 能 
发 生 有 限 次 . 


例 5. 13( 概 率 与 频率 ) ”如 同 例 5. 4, 考虑 某 试验 中 事件 4 发 生 的 概率 . 在 多 次 进行 重 
复试 验 中 , 记 Mn 为 n 次 试验 中 事件 4 发 生 的 频率 . 强大 数 定律 保证 Mn 以 概率 1 收 
敛 于 PL. 相 比 之 下 , 弱 大 数 定律 则 保证 Mn 依 概 率 收 化 于 PL 寺 ( 见 例 5. 4) . 

我 们 经 常 将 事件 4 的 概率 直观 地 解释 为 独立 重复 无 穷 试验 序列 中 事件 4 出 现 的 频率 . 
强大 数 定律 支持 了 这 种 直观 的 解释 . 并 且 指 出 在 独立 重复 的 试验 序列 中 , 可 以 肯定 地 说 
( 即 事件 发 生 的 概率 为 1) : 事件 4 长 时 间 出 现 的 频率 就 是 概率 PL. 


以 概率 1 收敛 


























强大 数 定律 中 的 收敛 与 弱 大 数 定律 中 的 收敛 是 两 个 不 同 的 概念 . 现在 给 出 以 概率 1 收敛 
的 定义 , 并 讨论 这 个 新 概念 


以 概率 1 收敛 
设 于 ,好 …… 是 某 种 概率 模型 下 的 随机 变量 序列 (不 必 独 立 ), c 是 某 个 实数 , 如 果 


Pl lim Y=c)=1. 
下 一 CO 





则 称 六 以 概率 1 (或 几乎 处 处 ) 收敛 于 <. 


类 似 于 前 面 的 讨论 , 我 们 应 该 正确 理解 以 概率 1 这 种 收敛 类 型 , 这 种 收敛 也 是 在 由 无 穷 数 
列 组 成 的 样本 空间 中 建立 的 : 若 某 随 机 变量 序列 以 概率 1 收敛 于 常数 c, 则 在 样本 空间 
中 , 全 部 的 概率 集中 在 满足 极限 等 于 c 的 无 穷 数 列 的 子 集 上 . 但 这 并 不 意味 其 他 的 无 穷 
数列 是 不 可 能 的 , 只 是 它们 是 非常 不 可 能 的 , 即 它们 的 概率 为 0. 


例 5.14 设 ANA2 … 是 独立 随机 变量 序列 , Ai 的 公共 分 布 是 区 间 [0, 1] 中 的 均匀 分 
布 . 令 了 ;二 min{ 和 1,… ,Xn 下 面 证 明 区 以 概率 1 收敛 于 0. 


注意 , Yh 是 非 增 的 , 即 对 所 有 的 wn 有 Yn+1 < x. 既然 序列 hn 有 下 界 0, 所 以 一 定 有 极 
限 , 将 这 个 极限 记 为 了 固定 e > 0, 如 果 站 三 6 则 对 所 有 的 7 都 有 Xi 三 6 故 对 所 有 的 


n 











Pl(Y >e) <PY> eh >e=(-e". 
进一步 有 


P(Y >¢e) < lim(l—e"=0. 
下 一 CO 


这 就 证 明了 对 任意 的 正 数 e 有 PlY 丰 =0. 故 PlY >0)=0, 从 而 PlY =0)=1 又 因 
为 地 是 的 极限 ,所 以 ;以 概率 1 收敛 于 0. 


以 概率 1 收敛 强 含 依 概率 收敛 ( 见 本 章 末尾 的 习题 ), 但 反之 不 成 立 . 下 一 个 例子 说 明 依 概 
率 收 敛 和 以 概率 1 收敛 的 区 别 . 


例 5. 15 考虑 一 个 离散 时 间 到 达 的 过 程 !. 我 们 假定 到 达 的 时 刻 属于 正 整数 集合 
{1,2,…} 现 将 这 个 集合 分 割 成 若干 互 不 相交 的 集合 (区 间 ) 

大 一 { 人 2 中 十 121 一直 大 一 01… 注意 ,到 的 长 度 是 24, 随 着 人 的 增 大 而 增 大 . 
假定 在 每 个 区 间 1 只 有 唯一 的 一 个 到 达 时 刻 , 且 在 区 间 内 每 个 时 刻 到 达 是 等 可 能 的 ， 
在 各 个 区 间 到 达 时 刻 是 相互 独立 的 . 右 记 第 Kk 个 区 间 到 内 的 到 达 时 刻 为 nb 则 nn 是 
相互 独立 的 随机 变量 序列 ,= 01 现在 定义 随机 变量 序列 次 : 如果 在 时 刻 到 达 
Ts 则 定义 Yn=1 否则 定义 Yn = 0. 


1 到达 时 刻 的 直观 含义 是 非常 清楚 的 , 例如 , 时 刻 到 达 一 位 顾客 , 或 时 刻 2 到 达 一 个 基本 粒子 等 说 法 . 译 者 注 


















































如 果 ne 则 P(3% 关 0) = 2 注意 到 ,对 任意 的 存在 唯一 的 & 使 得 ne 而且 
随 着 的 增 大 ,k 也 随 之 增 大 , 所 以 


lim P(Y, #0) = lim 2-* =0. 
no0 k—o0 





故 和 % 依 概率 收敛 于 0. 但 是 在 每 个 区 间 Ht 都 有 到 达 时 刻 , 所 以 到 达 的 次 数 是 无 穷 多 次 
的 , 所 以 存在 无 穷 多 个 使 得 =1. 这样 ,事件 切记 于 一 外 的 概率 为 0, 即 不 以 
概率 1 收 化. 


觉 上 看 , 对 任意 给 定时 刻 及 与 0 的 偏差 显著 大 于 0 的 概率 很 小 , 而 且 随 着 2 的 增 
大 , 概率 在 减少 . 这 就 是 说 jh 是 依 概 率 收敛 的 序列 . 男 一 方面 , 只 要 时 间 足 够 大 , Yn = 1 
肯定 会 发 生 , 因此 i 就 不 以 概率 1 收敛 . 

















5.6 小 结 和 讨论 


本 章 中 , 我们 讨论 了 概率 论 中 许多 重要 的 理论 , 并 主要 从 概念 和 实际 应 用 两 个 角度 来 论 

述 . 从 概念 上 看 , 概率 可 以 看 作 大 量 独立 试验 的 相对 频率 , 并 且 本 章 给 出 了 其 坚实 的 理论 

依据 . 从 实践 角度 看 , 对 计算 关于 独立 随机 变量 和 的 事件 的 概率 给 出 了 合理 的 近似 计算 

这 些 事件 概率 的 精确 计算 却 往往 很 困难 . 在 统计 推断 中 , 我 们 将 看 到 这 些 定律 
旺 心 


本 章 论 述 了 如 下 三 个 涉及 极限 理论 的 定律 . 


人 弱 大 数 定律 : 表明 在 样本 容量 充分 大 时 ,样本 均值 与 真 均值 非常 接近 . 切 比 雪夫 
等 式 是 概率 论 中 一 个 非常 有 用 的 不 等 式 . 


(b) 中 心 极限 定理 : 概率 论 中 最 重要 的 理论 之 一 . 已 是 指 大 量 独立 随机 变量 之 和 的 分 布 
可 以 近似 为 正 态 分 布 . 中 心 极限 定理 有 许多 应 用 , 它 是 统计 分 析 中 的 一 个 主要 工具 , 而 且 
确信 在 大 量 实例 中 使 用 正 态 模型 的 假设 的 合理 性 . 


) 强大 数 定律 : 将 概率 和 频率 更 加 紧密 地 联系 起 来 , 在 理论 研究 中 也 是 非常 重要 的 工 


上 县: 


在 研究 极限 理论 中 ， 本 重 介 绍 了 很 多 收敛 的 概念 ( 依 概率 收敛 ， 以 概率 1 收敛 ), 同时 也 提 
供 了 概率 模型 中 关于 收敛 的 精确 语言 . 极限 理论 和 收敛 概念 是 研究 概率 模型 和 随机 过 程 
中 非常 重要 的 课题 . 




























































































习题 
5.1 节 马尔 可 夫 和 切 比 雪夫 不 等 式 


1. i (以 米 为 单位 ), 他 在 该 类 人 和 群 中 随机 抽 
取 n 个 人 , 获得 样本 Xi ,Xn. 使 用 样本 均值 Mn = (X1+… 十 六 mn)/n 作为 凡 的 估 
计 , 大 致 猜测 六 的 标准 差 为 1 米 - 


(a) 样本 容量 多 少时 , 使 得 Mn 的 标准 差 最 多 不 超过 1 厘米 ? 


(b) 样本 容量 多 少时 , 使 用 切 比 雪夫 不 等 式 可 以 保证 估计 值 与 的 差距 至 少 以 0. 99 的 
概率 在 5 厘米 之 内 ? 


(c) 该 统计 学 家 认识 到 该 类 人 群 里 所 有 的 人 的 身高 都 在 1. 4 米 到 2. 0 米 之 间 , 然后 他 基于 
2 的 上 界 方 法 , 来 修正 对 标准 差 的 猜测 ( 即 原来 的 1 米 ). 那么 (a) 和 (b) 的 结论 如 
可 修正 ? 


2.# 切 尔 诺 夫 界 . 切 尔 诺 夫 界 是 概率 论 的 一 个 有 用 的 工具 , 它 是 利用 随机 变量 的 矩 母 函 
数 , 给 出 茶 些 尾 事件 的 概率 上 界 . 


(a) 证 明 不 等 式 














P(X > a) < e-*M(s) 


对 所 有 的 a 和 = 二 0 成 立 , 其 中 M(s) = Ele™] 是 随机 变量 了 的 矩 母 函数 . 假定 矩 母 
函数 在 s =0 的 一 个 小 区 域内 取 有 限 值 . 


(b) 证 明 不 等 式 

P(X <a) <e*M(s) 
对 所 有 的 a 和 s <0 成 立 . 
(c) 证 明 不 等 式 


对 所 有 的 a 成 立 , 其 中 
pla) = max sa — lniMls)). 
(d) 证 明 : 如 果 > 则 oa) > 0， 
(e) 利用 (c) 的 结论 , 试 给 出 P(X 二 oj 的 上 界 , 其 中 了 服从 标准 的 正 态 分 布 , 并 且 假 定 


a>0. 





J Xi1,X2,… 是 独立 随机 变量 序列 , 与 了 有 相同 的 分 布 . 证 明 对 任意 的 “> EIX] 


1 n a 
P | 一 > Xi>al<e™"™™" 
( Fa = - 


所 以 样本 均值 超过 均值 一 定量 的 概率 随 着 n 的 增 大 指数 递减 . 
解 (a) 对 任意 的 实数 a 和 s > 0, 定义 随机 变量 


0, 者 天 <w 


5 一 
BB 
Yh <e™ 
总 成 立 , 所 以 
E[Y;] < Ele’*] = M(s). 
丸 外 
E[ya] = e™P(Y = e™) = e™*P(X > a), 

故 


P(X >a)<e “MM(s). 


(b) 证 明 过 程 类 似 于 (a), 定义 ja 如 下 : 


因为 5 < 0, 关系 式 


Y, < es 
总 成 立 , 所 以 
E[Y,] < Ele’*] = M(s). 
男 外 


Bil=e PY =e )=e PX <a) 


故 


P(X <a)<e “MI(s). 
(c) 因为 (a) 中 不 等 式 对 所 有 的 二 0 成 立 , 所 以 
P(X>a)< min(e MT(s)) = min elsa-Iln MI(s)) 
s>0 s>0 


—maxl{sa— ln Ml(s)) 
= @ 3s20 = e—90 


(d) 当 s=0 时 ， 


sa—lnMl(s)=0—1lnl1=0, 


这 里 应 用 了 MM(0) = 1 而且 


d pj 1 d 
sa 一 i\ ES] 一 一 一 一 一 一 一 | S = a ET 六 
(sa In MI )) 照 a Ms) i 1.EIX] >0 


因为 函数 s4 一 也 ls) 在 s=0 处 的 函数 值 为 0, 且 导 数 是 正 的 ,所 以 当 s 是 很 小 的 正 数 
时 , 函数 值 一 定 是 正 的 . 故 函数 54 一 也 MM(s) 在 s 0 的 最 大 值 oa) 也 一 定 是 正 的 . 


(e) 当 天 是 标准 正 态 分 布 时 , M(s) = e /2 因此 , sa 一世 Ms) = sa 一 加 /2. 为 给 出 s>0 
时 函数 的 最 大 值 , 先 求 函数 se 一/2 对 变量 s 的 导数 ,得 a 一 s, 令 其 为 0, 解 得 s =a 
从 而 ga) = 一 /2. 所 以 概率 P(X > oj 的 上 界 为 


P(X > a) < e-®/2. 


注意 , 当 a <0 时 , 函数 sa 一 也 MM(s) 在 s =0 处 达到 最 大 值 , 所 以 oa =0 时 给 出 一 
个 无 意义 的 上 界 


P(X > a2) <:1. 


(f) 定义 了 = 六 十 … 十 Xn 运用 结论 (c), 可 得 


1 nn 
P | 一 及 ji 之 一 PPI(LY > eprlna) 
B2 >] (Y > na) < 
> 中 
pylna) = maxlnsa — ln My(s)), 
以 及 


My{s) = (MI(s))". 


In My(s) = nlnM(s) 所 以 


pylna) =n:max(sa — ln Ml(s)) = nola), 
s>0 


] n ey 
P| 二 》 Xi>a) <e™. 
( 2 之 <e 


J 当 4 > EIX] 结论 (qd) 保 证 了 oa) > 0 所 以 感 兴趣 的 概率 随 着 n 的 增 大 而 按 指 数 
递减 . 


了 


d” 
3.* 詹 森 不 等 式 . 没 实 信函 数 Jtz) 一 次 可 逢 如果 二 阶 导数 22570 在 x 的 定义 域 
内 是 非 负 的 , 则 称 函数 flz) 是 是 函数. 


(a) 证 明 函 数 ftz) =e、jz) = 一 nz 和 jz)=z 都 是 凸 函数 . 

(b) 证 明 : 如 果 了 是 凸 的 三 阶 可 微 函 数 , 则 7 的 一 阶 泰勒 展开 低估 了 函数 5 即 
fla) + (rz—a) 5 (a) < flz 

对 任意 的 a 和 x 成立. 

(c) 证 明 : 如 果 了 满足 (pb) 中 所 述 的 条 件 ,了 是 随机 变量 , 则 


f(ELX]) < ELF(X)]. 





解 ”(a) 
Lp = azeaz > (0. < lInz) = = > 0. et T4 = 1272 > 0. 
(b) 因为 了 的 二 阶 导数 是 非 负 的 ,所 以 它 的 一 阶 导 数 一 定 是 非 降 .应 用 积分 原理 可 得 





flz) = fla) 十 [ df (nat fla) 十 / NT = fla)+ (rz— et 
Ja dt Ja dt dz 


(c) 由 于 (b) 中 的 不 等 式 对 随机 变量 XY 的 所 有 可 能 取 值 的 x 都 成 立 , 所 以 


ey 
fla) + (xX -qd 至 人 < f(xX). 
Ur 


取 a ==E[X] 并 在 上 式 两 边 取 期 望 , 可 得 
(EIX]) + (ELX] ~ EIX]) SL (EX) < BIOCO 
即 


f (ELX]) < E[f(X)]. 


5.2 节 弱 大 数 定律 
4， 为 估计 吸烟 人 群 占 总 人 口 的 真实 比例 £ 阿尔 文 随机 地 从 其 中 抽取 hn 人 .用 这 也 个 


人 中 的 吸烟 人 数 su 除 以 得 到 Mm, 作为 该 比例 的 估计 , 即 Mn = Sn/7. 对 于 固定 的 
正 数 ef 和 5, 阿尔 文 为 选取 最 小 的 样本 容量 使 得 下 式 成 立 ( 基 于 切 比 雪夫 不 等 式 ) ; 


Pa — f|>e) <5, 
指出 w 随 着 下 面 参数 变化 而 变化 的 规律 . 
(a) e 缩小 为 原来 的 一 半 . 
(b) 概率 值 5 缩小 为 原来 的 一 半 . 


5.3 节 ” 依 概率 收敛 


5， 设 AAA” 独立 同 分 布 ,服从 [-1, 1] 上 的 均匀 分 布 . 证 明 下 列 情形 的 随机 变量 序列 
于 22 依 概 率 收敛 ,并 求 出 它们 的 极限 . 


(a) Yn = Xn i/n. 
(b) Jr 一 (Xn 还 


(¢) Yh = 和 和 Xn. 





~ 





(d) Y= max{Xi1,.… ,Xn}. 


6， 考虑 两 个 随机 变量 序列 1, 六 2,…* 和 六 ,了 2,…… 假定 XX 和 了 5 都 分 别 依 概率 收 
敛 ， 为 已 知 常数 ， 证 明 : CXn、 Xn 十 、 max{0, Xn}、 [Xnl、 Xnln 都 依 概率 收敛 于 各 自 
的 极限 . 


解 假设 x 和 y 分 别 是 Xn 和 的 极限 .对 任意 的 6> 0 和 常数 c, 如果 c=0, 则 
cXn 对 所 有 的 n 都 等 于 0, 自然 就 收敛 . 如 果 “去 由 则 
P(eX 一 cz| 之 ==P(|X 一 二 elldh) 一 0 所 以 就 证 明了 cxXw 依 概率 收敛 于 cx 


对 任意 的 > 0 现在 我 们 证 明 概 率 P(Xn + 和 x 一 7 一 让 三 一 0. 为 给 该 概率 一 个 上 限 ， 


注意 到 : 当 x 十 殉 一 J 一 让 之 e 时 , 必 有 Xn 一 | 之 6/2 或 者 | 玖 一 外 > /2 (或 者 两 者 
都 成 立 ). 所 以 , 从 事件 的 角度 看 ， 


{[Xn+ mrz—y>e} CI{Xn mz|> /2}U {| — yl > /2}. 
故 
Pl|X TT Jr Ts yl > 6j < Pl|X T| 之 Ee/2) + Pl 上 人 y| 之 ef/2), 


以 及 由 Xn 和 Yn 分 别 依 概率 收敛 于 x 和 y 的 假设 条 件 可 得 


lim P(X + —7—Y>e) < lim P(X —7| > 6/2)+ lim P(|Y, ~—Yy| > 


e/2) 兰 稚 . 


类 似 地 , 事件 {|[max{0, Xn} — max{0, 7z} > e} 包含 在 事件 {|Xn —z| > e} 之 中 . 又 因为 
si td td 


lim Pl|max{0, X — max{0,7}| > 6=0. 
no0 
这 就 证 明了 max{0, Xn} 依 概 率 收 敛 于 max{0, 7 


我 们 有 |Xn| = max{0, Xn} + max{0, —Xn}. 前 面 已 经 证 明了 max{0, Xn} 和 max{0, 一 Xn} 
都 依 概率 收 伊 , 所 以 它们 的 和 也 依 概 率 收敛 于 max{0,7} + max{0, 一 z} = |zl 
最 后 ， 
Pl|XnYn — zy| > = P(Xn TY m+rYn +yXn— 27y| > e) 
< P(X — TY — | > ef2) +P(|zY, + yx — 27y| > ef/2). 


因为 YYn 和 yXn 部 依 概率 收敛 于 xy, 所 以 上 式 中 后 一 个 概率 值 趋 于 0. 所 以 我 们 只 需 证 
明 





PC — z)(¥ — | > ee/2) =o 0. 


为 给 该 概率 一 个 上 限 , 注意 到 : 当 |(Xn 一 zi 一切 之 e/2 时 , 必 有 |Xn 一 ?| 之 Ve/2 或 


者 D4 一 y| Ve/2 (或 者 两 者 都 成 立 ). 类 似 于 Xn +% 依 概率 收敛 的 证 明 , 同样 可 以 证 
明 P(|(Xn 一 zj( 丈 一切 | >e/2) 一 0. 


7.*# 称 随机 变量 序列 Xn 为 均 方 收敛 于 常数 c 如 果 
lim EI(Xn 一 c)] = 0. 
(a) 证 明 : 均 方 收敛 的 随机 变量 序列 必定 依 概 率 收 敛 . 
(b) 给 出 一 个 例子 , 说 明 依 概率 收敛 的 随机 变量 序列 不 是 均 方 收敛 的 . 
解 (a) 假设 Xn 均 方 收敛 于 常数 c, 利用 马尔 可 夫 不 等 式 , 有 


El[(Xn 二 c)3] 
全 





P(X, =0e| Se = P(X eo >2)< 
令 nn 一 oo0, 可 得 
Jim P(|Xn —c| > 6)=0, 
即 依 概率 收敛. 
(b) 在 例 5. 8 中 , Yh 依 概率 收敛 于 0, 但 是 EBD] = 7 发 散 到 无 穷 大 . 


5.4 节 中 心 极限 定理 

8， 假 设 你 将 在 赌场 玩 轮 盘 赌 , 通常 你 需要 检验 轮 盘 的 公正 性 . 其 办 法 如 下 : 轮 盘 上 标 有 
1 36 的 数字 , 将 轮 盘 转动 100 次 , 然后 计算 轮 盘 停止 在 奇数 点 处 的 总 次 数 . 如 果 次 数 大 于 
55, 则 可 判断 轮 盘 不 是 公正 的 . 假设 轮 盘 是 公正 的 , 试 估计 做 出 错误 判断 的 概率 . 


9， 假 设计 算 机 系统 每 天 至 少 出 现 一 次 死机 的 概率 为 5%, 而 且 在 不 同 天 里 , 出 现 死机 的 事 
件 是 相互 独立 的 . 求 在 50 天 之 内 计算 机 至 少 有 45 天 没有 死机 的 概率 . 


(a) 试用 二 项 分 布 的 正 态 近似 方法 来 计算 . 
(b) 试用 二 项 分 布 的 泊 松 近似 方法 来 计算 . 


10. =、 在 第 n 天 生产 小 配件 Xn 件 , 且 Xn 是 相互 独立 的 随机 变量 序列 , 均值 为 
5, 方 兰 为 9. 


(a) 试 给 出 在 100 天 内 生产 至 少 440 件 小 配件 的 概率 的 近似 值 . 
(b) 给 出 最 大 的 2 的 近似 值 , 使 得 
P(XI 十.… 十 Xn > 200+ 5n) < 0.05. 
(c) 用 w 表示 小 配件 的 总 产量 首次 超过 1 000 的 天 数 , 计算 入 220 的 概率 的 近似 值 . 
11. 设 AAA2 2 是 独立 的 随机 变量 序列 , 服从 [0, 1] 上 的 均匀 分 布 . 定义 


加 16 


试 给 出 概率 PlIW 一 WW| < 0.001) 的 近似 值 . 


12.* 中 心 极限 定理 的 证 明 . 设 入 ,六 2,…* 独立 同 分 布 , 均值 为 0, 方差 为 cz 其 矩 母 函数 
为 Mx(35). 假设 对 某 个 正 实数 & 当 |5| <d 时 , Mx(s) 是 有 界 的 . 定义 




















(a) 证 明 : Zn 的 矩 母 函数 为 


Mz, [s) 一 (a ( 声 )) 。 
V1 


(bp) 设 Mxls) 在 s=0 处 附近 存在 二 阶 泰勒 展开 , 即 





Mx(ls)= 二 a 十 bs 十 cs2 十 ol s2). 


1 2Y tt im o{fs /sg =0 、 一 Ra i 
其 中 o(s?) 满足 是 os Ms =0 试 写 出 a、bp、c 的 表达 式 (用 o? 表示 ). 


(c) 用 (a) 和 (b) 的 结论 证 明 Zn 的 矩 母 函 数 Mz 
即 对 所 有 的 s， 


了 


im Mz, (s) 一 es /2. 


注 ”中 心 极限 定理 的 证 明 就 是 利用 结论 (c) 以 及 如 下 结论 (证明 在 此 省 略 ) : 


(s) 收敛 于 标准 正 态 


分 布 的 矩 母 函 数 ， 


如 果 


Mz, ts) 收敛 于 一 个 连续 的 随机 变量 2 的 矩 母 函数 Wzts) 那么 2 的 分 布 函数 fz 必 
收 化 于 2 的 分 布 函数 Fz. 这 个 结论 的 证 明 超出 本 书 的 范围 , 在 此 不 再 论述 . 利用 结论 





(c) 和 上 述 结论 , 可 以 得 到 Z 的 分 布 函数 fz 必 收敛 于 标准 正 态 
中 心 极限 定理 成 立 . 























解 (a) 利用 Xi 的 独立 性 可 得 
Mz,(s) = Ele“"|]=E BE {去 2 xj| 
[rl em| 
=1 
-xz 
(b) 利用 和 矩 母 函数 的 性 质 , 有 
二 | EIX] =0 
ds s 一 0 
1 dd E[X2] oo 
一 2 ds2 s=0 国 2 时 2 
(c) 综合 结论 (a) 和 (b) , 可 得 
A (= (以 一 =)) =( bs Ce 
ib ~、 ovVn ke ovn on 
再 由 玉 1、 太 0、c= 52/2 可 知 
w=(1+ 革 +o( 声 )) 
令 noo 再 利用 (t+ m “可 得 
lim Mz, (s) = es /2 
5.5 节 强大 数 定律 


分 布 的 分 布 函数 , 即 


13.* 考虑 两 个 随机 变量 序列 X1, 六 2,…* 和 六 ,说 ,…… 假定 Xn 和 了 球 了 分 别 以 概率 1 收 
和 敛 于 a 和 b, 证明 Xn 二 以 概率 1 收 合 于 “+ 六 进一步, 如 果 Yn 才 0 证明 六 sf 
概率 1 收敛 于 2/b. 


解 ” 记 事件 4= {Xn 不 收敛 于 对 ，B = {7 不 收敛 于 对 C = {Xn 二 不 收敛 于 
a+ 计 则 Cc AUB. 


因为 假定 Xx 和 球 分 别 以 概率 1 收敛 于 a 和 b, 所 以 P(4) = PLB) = 0. 故 
P(C) < P(AU B) < P(A) +P(B)=0, 


从 而 PLC )=4 即 Xn 十 3 以 概率 1 收 全 于 a + 六 类似 可 证 : Xn/ Yn 以 概率 1 收敛 于 


alb 


14.*# 设 Xi X2， 是 独立 同 分 布 的 随机 变量 序列 , Yi, 访 ,… 是 另 一 个 独立 同 分 布 的 随 
机 变量 序列 . 假定 Xi 和 站 的 均值 有 限 , 且 1+…+3% 不 可 能 为 零 值 


否 以 概率 1 收敛 ?如 果 是 , 极限 是 什么 ? 


运用 强大 数 定律 可 知 , 分 子 和 分 母 都 分 别 以 概率 1 收敛 于 ELX] 和 ElY] 利用 习题 13 的 结 
论 可 得 Zn 以 概率 1 收敛 于 EIX ] 中 和 


15. 假设 电 ,22, ”以 概率 1 收敛 于 常数 c 证 明 该 序列 依 概率 收敛 于 常数 c 


解 定义 事件 C = fm 收敛 于 中 .由 假设 可 知 P(C) = 1 给 定 6>0, 定 义 事件 =1 

对 所 有 的 |r 一 do < 结 . 如 果 随机 变量 序列 3 的 一 组 取 值 序列 收敛 于 c 则 必然 存在 
使 得 nn 之 kk 时, Yx 与 c 的 偏差 在 e 范围 之 内 .所 以 , C 中 的 任何 元 素 必 属 于 某 个 Ax 
,外 





CC U Ak. 
k=1 


注意 , 事件 序列 A 是 单调 递增 的 , 即 怀 < An 由 事件 44 是 事件 {7% 一 d < 晤 的 子 
集 可 知 

Jim Pi 次 一 cl| <e) > dim P(4Kk) =PIURLI4K) > P(C)= 1. 
上 式 的 第 一 个 等 式 利用 了 概率 的 连续 性 (第 1 章 的 习题 13). 所 以 


lim Pl|Yh, —c| => €)=0, 
Nn—+o0 


即 证 明了 次 依 概率 收 委 于 常数 < 
16， 假 设 六 ,%%,…… 为 非 负 的 随机 变量 序列 , 且 
p> ee 


n=] 
证 明 Y_n 以 概率 1] 收敛 于 0. 


， 人 字 列 以 概率 1 收敛 的 常用 方法 . 为 计算 志 二 1 区 的 期 望 , 人 们 
Na 


bd 5 EL]. 
n=l n=l1 

上 式 成 立 的 原因 是 期 誉 和 无 穷 和 可 以 交换 顺序 . 当 随 机 变量 序列 是 非 负 值 , 就 是 著名 的 
单调 收敛 定理 . 这 是 概率 论 中 的 重要 结论 , 该 定理 的 证 明 超出 本 书 的 范围 . 


解 无穷 和 和 2n=1Yn 必定 以 概率 1 有 界 . 事实 上 , 如 果 这 无 穷 和 等 于 无 穷 大 的 概率 大 于 
0, 则 其 期 望 一 定 也 是 无 穷 大 . ms 六 任何 数值 序列 的 无 穷 和 是 有 界 的 话 , 那么 该 
a 定 收敛 于 0. 所 以 事件 多 : (ww) 一 0 的 概率 为 1 即 和 以 概率 1 收敛 于 0. 


17， 考 虑 伯 努 利 随机 变量 序列 Xn, 记 Pn 二 PlXn 二 1 为 第 次 试验 成 功 的 概率 . 如 果 
2n=1Pn < ee 证 明成 功 的 总 次 数 以 概率 1 有 界 . 与 第 1 章 习 题 48 (b) 的 结果 比较 ) . 


解 ”利用 单调 收敛 定理 (见习 题 的 备注 ) 可 得 
































所 以 


以 概率 1 成 立 . 所 以 成 功 的 总 次 数 以 概率 1 有 界 . 


18.# 强大 数 定律 的 证 明 . 假设 X1,X2,… 是 独立 同 分 布 的 随机 变量 序列 , 且 EPE] < cc 
,证 明 强 大 数 定 律 . 


解 ”注意 到 E[Xi] < ce 蕴含 着 X; 的 期 望 是 有 限 的 . 事实 上 , 利用 不 等 式 |z| 1+ 
可 得 





E[|Xil < Ell+ X=1+EX < oc. 


首先 假设 FLXi] = 0. 下 面 证 明 


我 们 有 


(CH+…+X) | 1 a 
| -一 | = 二 E[Xi, Xi Xi Xi]. 


ii=1] ia=] 13 一 1 i=l1 


现在 考虑 以 上 和 式 中 的 各 项 . 如 果 项 中 某 一 下 标 与 其 他 下 标 不 同 , 则 该 项 为 0. 比如 ,1 与 
i2、i3、i4 都 不 相同 , 则 EIXa] =0 列 含 


ElXi, Xi Xi Xi] = E[Xi, |E[X;, Xis Xil = 人 0. 








所 以 和 式 中 非 零 项 要 么 是 E[X (共有 项 ), 要 么 是 ELXiXj (i 关 刘 .现在 计算 后 者 有 
多 少 项 . 获得 这 种 形式 有 三 种 方式 : i = 袜 尖 = 冯 或 者 =i32 = 站 或 者 

il 一 站 天 六 一 入 在 这 三 种 方式 的 每 一 种 方式 中 , 第 一 对 指标 共有 7 种 选择 , 第 二 对 指标 
0 -1 种 选择 , 故 每 一 种 方式 共有 n(n 一 1) 项 . 综合 这 三 种 方式 , 一 共有 3n(n 一 1 
项 . 




















(和 
中 


一 一 | nE[X1] + 3n(n — 1)E[X?X3] 
上 
n 


n 


使 用 不 等 式 zy < ( 王 十 妇 )/2, 可 得 ELEXIX2] < 了 PR] 故 





上 3 | < nE[X1| 二 3n v 一 1)E[X1 < | < 3E[XI] 

n nn 也 了 一 
于 是 

(六 1 十 十 os 和 (1 十 TT Xn) 3 3 

|> n4 | n4 | < 2 元 ED ~ 
n=l] n=] n=] 
Do. 

三 | 人 [Ri 十 十 并 )4/n4 、 2 人 
最 后 一 步 使 用 了 熟知 的 性 质 二 1 这 就 证 明了 (1 全 nj /7 以 概率 1 收敛 


于 0. (参见 习题 16). 所 以 (Xi1 十 … 十 六 mj)/n 以 概率 1 收敛 于 0. 即 证 明了 强大 数 定律 . 


现在 考虑 一 般 的 情况 ，Xi 的 期 望 非 零 . 由 上 述 证 明 方法 可 得 (X1+… 十 Xn 一 nE[X1])/n 
以 概率 1 收敛 于 0, 故 (X11 十 … 十 六 /nn 以 概率 1 收敛 于 也 [1 


第 6 章 伯 努 利 过 程 和 泊 松 过 程 


0 3 
建 模 : 











Ves 


(a) 每 天 的 股票 价格 数据 序列 ; 

(bp) 足球 比赛 得 分 数据 序列 ; 

(c) 机 器 失效 时 间 数 据 序列 ; 

(d) 交通 网 络 中 的 每 个 点 的 交通 负荷 数据 序列 ; 

(e) 雷达 对 一 架 飞 机 的 定位 数据 序列 . 

序列 中 的 每 个 数据 都 视 为 一 个 随机 变量 ， 所 以 简单 地 说 , 随机 过 程 就 是 一 串 (有限 或 者 
无 限 ) 随机 变量 序列 , 与 概率 的 基本 概念 没有 本 质 的 区 别 . 设 在 某 个 试验 的 样本 空 FE 间 中 的 
每 一 个 试验 结果 ， 对 应 着 一 个 数列 , 这 个 数列 中 的 每 一 个 数 , 都 对 应 着 一 个 随机 变量 . ! 


+ 这 里 我 们 强调 的 是 ， 在 随机 过 程 中 产生 的 随机 变量 都 是 通常 的 随机 变量 , 它们 都 定义 在 一 个 相同 的 样本 空间 上 . 相 
要 求 明 确 无 误 地 确定 所 有 随机 变量 集合 的 任何 子 集 的 联合 分 布 , 而 这 些 联合 分 布 之 间 应 该 具有 某 种 








We 




































































































































































pa 随机 过 程 还 是 跟 以 前 强调 的 随机 变量 序列 有 明显 的 区 别 , 主要 表现 在 如 下 几 个 方 


(a) 我 们 更 倾向 于 强调 过 程 中 产生 的 数据 序列 之 间 的 相关 关系 . 比如， 股票 的 未 来 价 
格 与 历史 价格 是 什么 关系 ? 


(b) 我 们 对 整个 过 程 中 长 期 均值 感 兴趣 . 比如 ， 有 多 大 比例 的 时 间 ， 机 器 处 于 闲置 ? 


(c) 有 时 需要 刻画 某 些 边界 事件 的 似 然 或 者 频率 .比如 在 给 定 的 时 间 内 ， 电 话 系统 里 
ee 
少 ? 


随机 过 程 的 种 类 非常 多 ， 但 本 书 只 讨论 两 类 重要 的 随机 过 程 . 


(i) 到 达 过 程 : 我 们 感 兴趣 的 是 某 种 “到 达 ” 特性 是 否 发 生 ， 比 如 ， 接 收 器 接收 信和 号 

的 时 刻 ， 生 产 线 上 的 工作 完成 时 刻 ， 商 店 顾客 的 购买 行为 的 实施 时 刻 ， 等 等 ， 我 们 重 

0 lt 
， 我 们 考虑 到 达 时 间 是 离散 的 情形 ， 相 邻 时 间 服 从 几何 分 布 ， 即 伯 努 利 过 程 . 在 6. 2 
， 我 们 考虑 到 达 时 间 是 连续 的 情形 ， 相 邻 时 间 服 从 指数 分 布 ， 即 泊 松 过 程 . 


(ii) 马尔 可 夫 过 程 : 考虑 数据 在 时 间 点 上 演化 ， 而 且 未 来 数据 的 演化 与 历史 数据 有 
概率 相关 结构 . 比 如 ， 股 票 的 未 来 价格 明显 依赖 于 过 去 的 价格 .但 是 在 马尔 可 夫 过 程 







































































中 ， 我 们 假设 一 类 特殊 的 相关 : 未 来 的 数据 只 依赖 于 当前 的 数据 ， 而 与 过 去 的 数据 无 
关 ， 对 于 马尔 可 夫 过 程 ， 概 率 统计 学 家 积累 了 丰富 的 研究 成 果 ， 处 理 方法 也 已 经 成 熟 ， 
这 是 第 7 章 讨论 的 主题 . 





6.1 伯 努 利 过 程 


ee Be ed 序列 , 而 且 每 次 投掷 硬币 正面 朝 上 的 概率 都 是 p ， 
0< 1， 一 般 而 言 , 伯 努 利 过 程 是 由 一 串 伯 努 利 试验 组 成 ， 每 次 试验 以 概率 p 产生 
所) 以 概率 1-p 产生 数据 0 (失败 ), 而 且 跟 试验 序列 中 的 其 他 试验 是 相互 独 

















当然 ， 投 挪 硬币 只 是 对 独立 二 进 制 输出 数据 的 一 个 范例 说 明 ， 比 如 , 伯 努 利 过 程 经 常用 
于 对 诸如 顾客 到 来 ， 服 务 中心 找 到 工作 等 系统 进行 建 模 . 这 里 ， 时 间 被 离散 化 为 若干 时 
间 段 ， 在 第 段 时 间 内 , 至 少 有 一 个 顾客 到 达 服 务 中 心 ， 就 视 为 第 次 试验 “成 

功 ”， 因 此 ,我 们 常常 使 用 “到达” 这 个 词语 ， 而 不 用 “成 功 ”, 这 是 由 实际 音 景 决定 


我 们 用 更 加 正式 的 语言 描述 如 下， 伯 努 利 过 程 为 一 串 相 互 独立 的 伯 努 利 随机 变量 序列 
Xl,… ,Xn， 且 对 任意 的 工 ， 






















































































六 限 个 随机 变量 的 独 立 性 ， 可 以 推广 到 一 列 的 独立 性 : 如 果 对 任意 有 限 的 ,随机 变量 
，…… An 是 独立 的 ， 直 观 上 看 , 独立 性 意味 着 获得 任意 有 限 子 集 的 随机 变量 的 信息 , 都 不 能 对 其 他 变量 提供 任 
es 即 后 者 变量 的 条 件 分 布 函数 与 无 条 件 :分 布 函数 是 相同 的 


P(Xi = 1) =P 了 (第 :次 试验 成 功 ) = %， 


P(X; = . = 了 (第 ; 次 试验 失败 ) =1 一 p 


在 到 达 随 机 过 程 中 ， 人 们 常常 感 兴趣 的 是 在 一 定时 间 内 总 到 达 次 数 , 或 者 首次 到 达 的 时 
间 ， 对 伯 努 利 过 程 ， 前作 束 里 己 公 得 到 省 攻 4 吉 果 , 现在 总 结 如 下 . 


与 伯 努 利 过 程 相 关 的 随机 变量 及 其 性 质 


。 服 从 参数 为 nx 和 p 的 二 项 分 布 . 这 是 次 相继 独立 的 试验 成 功 的 总 次 数 5 
的 分 布 ， 它 的 分 布 列 、 期 望 和 方差 是 


pslk) = (za 一 万 )m k=0,1,-..…….,n 


El[S| = np, var(lS$)= npll—p). 


。 服 从 参数 为 p 的 几何 分 布 . 这 是 相互 独立 重复 的 伯 努 利 试验 首次 成 功 的 时 刻 
7 的 分 布 . 它 的 分 布 列 、 期 望 和 方差 是 




































































prlt) = pl1l —p)t-l!, t= 1,2..- 


PP 





1 
IT = -， var(T) = 
p 


6.1.1 独立 性 和 无 记忆 性 


伯 努 利 过 程 中 的 独立 性 假设 ， 上 暗合 了 很 多 重要 的 特征 ， 比如 无 记忆 性 (无 论 过 去 发 生 了 
什么 , 都 不 能 对 未 来 试验 的 结果 提供 任何 信息 ). 对 这 个 假设 进行 直观 和 正确 的 了 解 非常 
有 用 , 这 能 帮助 人 们 很 快 地 解决 一 些 非常 难 的 问题 在 本 小 节 里 , 我 们 将 加 深 这 种 直觉， 


2 与 伯 努 利 过 程 中 的 茶 些 试验 结果 相关 的 随机 变量 入 手 . 比如 , 随机 变量 

二 (六 1 十 入 3)X6X7 涉及 的 是 第 1，3，6，7 次 试验 结果 . 现在 假定 我 们 研究 这 类 随机 过 
程 的 两 个 大 机 变量 而 它们 所 涉 步 及 的 试验 结果 没有 重合 ， 则 这 两 个 随机 变量 一 定 是 独 江 
的 . 这 推广 了 第 2 章 里 的 结论 : 如 果 两 个 随机 变量 V 入 独立, 则 它们 的 任何 函数 
SC) 和 hlVW) 也 是 独立 的 . 


例 6.1 (a) 设 /是 第 1 5 次 试验 的 成 功 总 次 数 ， V 是 第 6 “10 次 试验 的 成 功 总 次 数 .， 则 
UV 和 术 独 立 . 这 是 因为 “一 X1 十 … 十 X5 ,了 一 X6 十 … 十 XI0 ， 而 且 集 合 
{X1 ,Xs5} 与 {X6,:** ,X10} ee 


(b) 设 UV 是 在 订 数 次 试验 序列 中 首次 成 功 的 时 刻 ， 广 是 在 偶数 次 试验 序列 中 首次 成 功 
的 时 刻 ， UV 古 由 奇数 次 试验 的 吉 果 序列 1, 六 3,… 所 决定 的 ， 而 是 由 偶数 次 试验 的 
2 ee -所 决定 的 . 而 这 两 个 试验 结果 序列 没有 相同 的 元 素 ， 所 以 ，V 和 V 
是 相互 独立 的 . 


现在 假设 但 努 利 过 程 运行 了 次 ， 得 到 了 观测 数据 六 1, 六 2,…… ,Xn. 未 来 试验 序列 
ntl, 六 nt2,"…* 仍然 是 独立 的 伯 努 利 试验 ， 形成 了 新 的 伯 努 利 过 程 进一步 ; 这些 未 米 
试验 与 过 去 的 试验 都 是 独立 的 . 所 以 ， 我 们 可 以 得 出 这 样 的 结论 : 从 任意 一 个 时 刻 开 
始 , 未 来 也 可 以 用 相同 的 伯 努 利 过 程 来 建 模 ， 而 且 与 过 去 相互 独立 . 人 们 称 这 种 伯 努 利 
过 程 性 质 为 重新 开始 . 


注意 到 伯 努 利 过 程 首次 成 功 时 试验 的 总 次 数 7 服从 几何 分 布 . 假设 我 们 已 经 观测 过 程 

7 步 ， 但 是 没有 “成 功 ” 的 结 末 出 现 . 那么 人 们 对 直到 出 现 “ 成 功 ” 的 结果 进行 余下 的 
试验 次 数 一 n 有 什么 结论 呢 ? 既然 未 来 的 过 程 (7 次 之 后 的 过 程 ) 与 过 去 的 过 程 是 

独立 的 ， 而 且 重 新 构成 一 个 “重新 开始 ”的 伯 努 利 过程 ， 所 以 , 直到 出 现 “ 成 功 ” 的 结 
果 的 未 来 试验 次 数 仍然 是 相同 的 几何 分 布 即 
















































































P(T—-n=tT >n)=(1-p) p=P(T=t), t=1,2,… 
和 人们 称 这 种 性 质 为 无 记忆 1 性 质 ， 当 然 这 个 性 质 可 以 运用 条 件 概率 的 定义 来 进行 数学 的 
推导 , 但 是 刚才 这 种 推理 过 程 更 加 直观 . 














与 伯 努 利 过 程 相关 的 独立 性 质 


对 任意 给 定 的 时 刻 2 ,随机 变量 序列 和 Xn, 六 n+2,… (过 程 的 将 来 ) 也 是 伯 努 利 过 
程 , 而 且 与 六 1,… ,六 n (过 程 的 过 去 ) 独立 . 


ee 02， 令 了 是 时 刻 了 之 后 下 次 成 功 的 时 刻 ， 则 随机 变量 
T 了 一 n 服从 参数 为 p 的 几何 分 布 且 与 随机 变量 六,…* ,Xn 独立 . 





例 6.2 计算 机 执行 的 任务 分 为 两 类 : 优先 任务 和 非 优先 任务 . 计算 机 将 运行 时 间 划 分 
为 互相 连接 的 时 间 小 区 间 , 每 个 小 区 间 称 为 “瞬间 ”(slot)， 时 间 区 间 就 实现 了 离散 
化 . 计算 机 在 每 一 个 瞬间 只 有 两 个 状态 : 忙碌 或 空闲. 这 样 计算 机 运行 状态 形成 一 个 随 
机 过 程 。 假定 各 个 瞬间 的 忙 朵 是 相互 独立 的 .又 假定 在 每 个 瞬间 的 开始 , 优先 任务 以 
概率 p 到 达 ， 而 且 与 其 他 瞬间 是 独立 的 . 当 优先 任务 到 达 的 时 候 ， 计 算 机 执行 优先 任 
务 ， 处 于 忙碌 的 状态 . 非 优先 任务 总 是 处 于 等 待 状态 ， 只 有 在 没有 优先 任务 的 前 提 下 ， 
才 会 执行 . 当 计算 机 执行 非 优先 任务 的 时 候 ， 称 计算 机 处 于 空 zs 闲 的 状态 . 这 样 计算 机 在 
各 瞬间 的 状态 形成 一 个 随机 过 程 . 


在 这 种 背景 下 ， 人 们 关心 的 是 非 优 先 任务 运行 的 时 间 间 隔 的 概率 特性 . 我 们 称 顺序 相连 
的 瞬间 形成 的 时 间 区 间 称 为 段 , 段 的 长 度 就 是 这 个 时 间 区 间 内 的 瞬间 数 . 现在 我 们 来 推 
导 下 列 随机 变量 的 分 布 列 、 均值 和 方差 (参见 图 6. 1). 

(a) 产 首 个 空 闪 瞬间 的 时 间 下 标 ; 

(pb) 产 首 个 忙碌 段 的 时 间 长 度 ( 即 忙碌 段 中 含有 的 忙碌 瞬间 的 个 数 ); 

(c) 大 首 个 空闲 段 的 时 间 长 度 ; 


(d) 到 第 一 个 忙碌 瞬间 之 后 直到 出 现 首 个 空闲 瞬间 的 瞬间 数 ( 含 这 个 空闲 瞬间 , 但 不 含 
第 一 个 忙碌 瞬间 ). 
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图 > 随机 变量 不 意图 , 例 6. 2 中 的 收入 对 间 息 和 忆 内 时 问 投 在 上 图 中 ， 


1 
,B=3,1 二 2,2Z =3. 在 下 图 中 ,T=1I=5,B=42 














7 是 服从 参数 为 1-p 的 几何 分 布 随 机 变量 ， 其 分 布 列 是 
pr(k) = p11 — p). k= 1,2,..…: 
均值 和 方差 是 


p 


1 
EIT] = VT = 
1—p (1—p)* 











现在 我 们 考虑 第 一 个 忙碌 时 间 段 ， 起 始 于 第 一 个 忙碌 瞬间 ( 称 为 瞬间 7 ,图 6. 1 的 上 图 
三 1， 下 图 左 6. ) 直到 出 现下 一 个 空闲 瞬间 (包括 这 个 瞬间 ) 的 瞬间 数 Z 与 7 具有 相同 
的 分 布 , 这 是 因为 伯 努 利 过 程 从 时 间 +1I“ 重 新 开始 ”， 然 后 我 们 注意 到 Z = B, 所 以 
8 与 7， 具有 相同 的 分 布 列 . 


如 果 我 们 将 空闲 瞬间 和 忙碌 瞬间 的 位 置 对 换 ， 把 p 换 成 1-P， 则 第 一 个 空闲 段 的 长 度 
7 与 第 一 个 忙碌 段 的 长 度 具有 一 样 的 分 布 列 ， 所 以 




















p(k)=(1— pip k=1,2,.…, ElN]=- 


7 


var(T) = 





最 后 注意 到 上 述 结论 对 第 二 ， 三 ,四 等 忙碌 (或 空 闪 ) 段 都 是 成 立 的 . 所 以 计算 得 出 的 分 
布 列 也 可 以 应 用 在 任何 第 了 了 个 信保 (或 空 zs 内) 段 . 


如 果 我 们 从 时 间 4 才 开 始 观 测 伯 努 利 过 程 , 这 等 价 于 我 们 重新 观察 一 个 新 的 伯 努 利 过 
程 . 进一步 ,我们 可 以 从 任意 随机 的 时 间 W 开始 观测 伯 努 利 过 程 ， 得 到 的 结论 是 一 样 
的 , 即 重新 观察 一 个 伯 努 利 过 程 ， 当然 这 里 的 _W 完全 由 过 程 的 过 去 决定 , 不 能 对 未 来 提 
供 任何 信息 .事实 上 ， 在 例 6. 2 中 ， 在 讨论 2 的 分 布 列 时 ， 我 们 强调 了 过 程 是 从 L+1 
个 瞬间 重新 开始 的 ， 运 用 了 这 个 性 质 , 就 可 以 得 到 2 与 7 同 分 布 的 结论 ， 现 在 再 举 一 
Ei | 子 , 考虑 一 个 轮 盘 赌 轮子 ， 出 现 红色 融 视 为 成 功 ， 从 任意 一 次 旋转 (比如 , 第 25 次 ) 

始 记录 数 据 , 它 遵 从 的 概率 特征 与 从 连续 五 次 旋转 出 现 红 色 就 立即 开始 记录 数据 所 遵 
从 的 概要 全 FE 是 完全 一 样 的 . 这 两 个 例子 ， 就 是 过 程 随 时 重新 开始 的 例子 (尽管 我 们 可 
以 发 现 有 些 赌 徒 另 有 他 们 的 解释 ). 下 面 的 例子 说 明 同样 的 结论 ， 但 是 更 正式 一 些 . 


例 6. 3( 随 机 时 间 的 重新 新 开始 ) ” 设 WV 是 第 一 次 遇 到 连续 两 次 成 功 的 时 刻 ( 即 ，W 是 
东 足 Xi 二 Xi-1 三 1 的 第 一 个 7 )， 现 求 概率 P(XN+1 二 评 N+2 = 0)， 即 紧 接着 两 次 实验 
都 失败 的 概率 . 


直观 上 看 ， 条 件 六 N-1 二 六 x 三 1 满足 的 话 ， 从 那 时 开始 , 未 来 的 过 程 由 独立 的 伯 
努 利 实 验 组 成 . 所 以 关于 未 来 事件 的 概率 与 重新 开始 的 伯 努 利 过 程 的 相应 概率 是 一 样 
的 ， 所 以 P(XN+1 = XN12 =0)= (1—p):. 


现在 对 上 述 结论 进行 严格 的 证 明 . 注意 ，W 是 一 个 随机 变量 , 利用 全 概率 公式 得 到 


































































































P(Xw41 = XNw42 = 0) -yplw =n})P(XN41 = XN42 =0|N=n) 
n=] 





-PN = n)p(Xan Xn+2 一 0 =n). 
n=1 


因为 WV 确定 后 ， 训 件 { =n} 发 生 ， 当 且 仅 当 Xi ,Xn 满足 某 个 特定 的 条 件 ， 而 
这 些 随机 变量 与 An+lAn+2 是 独立 的 , 所 以 














P(XnH = Xnt2 =0N =n)=P(Xnn = Xnt2 =0) = (1—p). 


故 


P(XN+1= XNw+2 =0)= P(N =n)(1—p) = (1—p)’. 
n=l] 





6.1.2 相 邻 到 达 间 隔 时 间 


与 伯 努 利 过 程 相 关 的 一 个 重要 的 随机 变量 就 是 第 K 次 成 功 (或 到 达 ) 的 时 间 , 记 为 丈 . 
与 之 相关 的 变量 是 第 k 次 相 邻 到 达 的 间隔 时 间 ， 记 为 还 . 即 所 谓 £ 次 相 邻 到 达 的 时 
间 是 第 一 1 到 达 之 后 到 第 K 次 到 达 之 间 所 需 的 总 时 间 . 它们 满足 如 下 关系 


嫉 一 闻 ， 有 天 = 了 欢 一 了 欢 -1， k=2,3,.…- 


如 图 6. 2 所 示 .， 同时 它们 还 满足 
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6. 2 相 Se Ds 图 中 1 代表 一 个 到 达 .， 在 这 个 例子 中 ， 


3. 了 2 et Ey 。 男 外 ,} 1 3, Ya = 8,Y 10,741 =11 














我 们 已 经 得 到 首次 成 功 的 时 间 五 服从 参数 为 p 的 几何 分 布 .有 了 第 一 次 在 时 间 五 的 

成 功 之 后 ， 未 来 是 一 个 新 的 伯 努 利 过 程 . 利用 重新 开始 的 原理 , 下 次 成 功 所 需 的 试验 次 

数 五 与 五 有 相同 的 分 布 ， 进 一 步 , 过 去 的 试验 (直到 , 且 包 括 时 间 五 ) 与 未 来 的 试验 

(从 时 间 五 + ] 开 始 ) 是 独立 的 . 既然 五 仅仅 由 未 来 的 试验 决定 ， 所 以 五 与 五 独 

四 我 们 可 以 得 到 随机 变量 五 ,及 ,13,… 都 是 相互 独立 的 , 而 且 具 有 相 
几何 


可 以 给 伯 努 利 过 程 一 个 等 价 的 另 一 种 描述 方法 , 这 种 描述 方法 有 时 更 
方便 . 


伯 努 利 过 程 另 一 种 描述 


(1) 开始 于 一 串 相 互 独立 的 、 参 数 为 p 的 几何 分 布 随机 变量 序列 五, 及,…… ,它们 
是 相 邻 到 达 时 间 间 隔 . 


(2) 观测 成 功 ( 或 到 达 ) 的 时 间 为 五 ,五 ,五 二 如 二 及 ， 等 等 . 























例 6.4 观测 数据 表明 雨天 之 后 ， 再 次 下 雨 所 经 过 的 天 数 服从 参数 为 p 的 几何 分 布 ， 
而 且 与 历史 数据 独立 . 求 出 本 月 第 5 天 和 第 8 天 同时 下 雨 的 概率 . 


如 果 我 们 用 几何 分 布 的 分 布 列 来 解决 这 个 问题 ， 那 么 方法 会 非常 繁琐 . 但 是 ， 如 果 我 们 
将 下 雨 看 为 “到 达 ”, 则 我 们 就 可 以 对 天 和 气 描 述 为 一 个 伯 努 利 过 程 . 所 以 , 任何 一 天 下 
雨 的 概率 是 p ， 而 且 与 其 他 的 天 是 独立 的 .特别 地 , 在 第 5 天 和 第 8 天 同时 下 雨 的 概率 
就 是 严 


6.1.3 第 次 到 达 的 时 间 


第 成 功 ( 或 到 达 ) 的 时 间 还 等 于 8X 个 独立 同 分 布 、 服 从 几何 分 布 的 随机 变量 之 和 ， 
即 区 三 五 二 十 到 这样 我 们 就 可 以 利用 下 表 计 算 和 的 期 望 、 方差 、 分 布 列 . 


第 次 到 达 的 时 间 的 性 质 

第 & 次 到 达 的 时 间 等 于 前 £ 个 相 邻 到 达 时 间 之 和 

Yi = T+ + 

而 且 五 ,… , 独立 同 分 布 ， 服 从 参数 为 p 的 几何 分 布 . 
的 期 望 和 方差 分 别 为 
































EY] = EIN] + :+ E[N] = 


p 


k(l1 — p) 


var[ 次 ] = var[ 五 ] 十 … 十 var[ 天 ] = 万 


。 半 的 分 布 列 是 


PY (lt) = ( 和 ix 一 pet, 二 万 ,万 十 1,……， 
这 就 是 著名 的 阶 数 为 £ 的 帕斯卡 分 布 . 


下 面 我 们 来 证 明 次 的 分 布 列 ， 首先 注意 到 款 不 小 于 Kk 对 上 >R 注意 到 事件 
{ 玫 一直 ( 第 k 次 成 功 的 时 间 是 + ) 发 生 当 且 仅 当 下 面 两 个 事件 同时 发 生 : 


(a) 事件 4: 第 t 次 试验 成 功 了 ; 
(b) 事件 及 在 前 六 !1 次 试验 中 ， 恰 好 成 功 了 大 1 次 . 
这 两 个 事件 发 生 的 概率 分 别 是 





P(A) = 7, 
和 


pS 一 pt! 
PIB) = 1 (一 站 二 


另外 , 这 两 个 事件 是 相互 独立 的 (这 是 因为 第 上 次 试验 成 功 与 否 , 与 前 万 1 次 试验 的 结 
果 是 独立 的 )， 所 以 











t—1 
py (t) PlY. t) P(A) P(A}P(B) = fa 1 [1 一 如 一 


证 毕 

例 6.5 在 息 球 比赛 中 ， 在 每 分 名 内 区 于 西亚 多 一次 规 的 要 来 是 p ,不 犯规 的 概率 是 
在 不 同 的 分 钟 内 是 否 犯规 是 相互 独立 的 . 艾 丽 西 亚 犯 了 6 次 规 后 ， 就 会 被 罚 出 场 

否 侈 的话 就 能 比赛 30 分 名 ,于 么 区 而 西亚 参加 化 球 比 赛 的 时 间 的 分 布 列 是 他。 

我 们 对 犯规 的 次 数 建立 伯 努 利 过 程 ， 参 数 为 p . 艾 丽 西亚 参加 比赛 的 时 间 为 2 ， 如 果 


她 犯规 次 数 为 6，2 就 等 于 ;6% ;如 果 站 二 30，2 就 等 于 30， 即 2 = min{Y6,30}. 76 的 
分 布 是 阶 数 为 6 的 由 斯 卡 分 布 ， 即 


t—l\ 。 i 
ml) = ( ja nr t = 6,7,.…: 
J 


为 求 Z 的 分 布 列 Pz(2), 我 们 首先 考虑 z 位 于 6 ~ 29 的 情形 ， 在 这 个 区 间 内 ， 












































1 FE ( WE 上 有 ， :一 人 G 、 王 5 
pz(z) PlZ = 2z) P{Ye = 2z) . p (1—p) ， 二 6,7,:.::. .29. 
5 
天 30 的 概率 则 由 下 式 确 定 
29 
pzl30)= 1— 》 pz(z) 
:一 有 


6.1.4 伯 努 利 过 程 的 分 裂 与 合并 


伯 努 利 过 程 每 次 到 达 的 概率 为 p ， 现 在 考虑 如 下 的 分 裂 : 每 当 有 一 个 到 达 时 ， 我 们 选 
择 或 者 保留 下 来 (概率 为 7 ) ,或 者 抛弃 (概率 为 1-9 )， 见 图 6. 3. 假设 保留 还 是 抛弃 的 
决定 在 不 同 的 到 达 时 间 是 相互 独立 的 . 如 果 我 们 集中 研究 保留 下 来 的 过 程 ， 那 么 可 以 看 
到 , 保留 下 来 的 过 程 仍然 是 个 伯 努 利 过 程 ， 在 每 个 瞬间 , 发 生 一 次 被 留 下 到 达 的 概率 是 
pq， 而 且 跟 其 他 的 瞬间 是 相互 独立 的 . 相同 的 原因 ， 被 抛弃 的 到 达 过 程 也 是 伯 努 利 过 
程 , 在 每 个 瞬间 发 生 被 抛弃 的 到 达 的 概率 是 p(1-9). 

















时 间 
图 6.3 伯 努 利 过 程 的 分 裂 示意 图 


反之 ， 如 果 有 两 个 独立 的 伯 努 利 过 程 (参数 分 别 是 p 和 9 ), 然后 我 们 采取 如 下 方法 进 

行 合并 . 一 个 到 达 被 收录 到 合并 的 过 程 中 ， 当 且 仅 当 在 这 两 个 原始 的 过 程 中 , 至 少 有 一 

个 是 到 达 状 态 ， 那么 这 个 事件 发 生 的 概率 是 P+4 一 Za[ 等 于 1 减 去 两 个 过 程 都 没有 发 生 

的 概率 (1 一 Pl1 一 0)]， 既然 不 同 的 瞬间 两 个 过 程 是 相互 独立 的 ， 合 并 后 的 不 同 的 瞬间 

i 所 以 合并 后 的 过 程 仍 是 伯 努 利 过 程 ， 每 次 成 功 的 概率 是 P+4 一 PD， 见 
6. 4. 











伯 努 利 过 程 (p) | lo | | LieellLLL > 
;| 

合并 的 
伯 努 利 过 程 | le| le| | | lSle| | | 19| | ~ 
(DZ 十 4 一 Dd) | 时 间 
伯 努 利 过 程 (9 一 上 11 le| | 1 le 1||le| >、 
时 间 


图 6.4 伯 努 利 过 程 的 合并 示意 图 
伯 努 利 过 程 (或 其 他 过 程 ) 的 分 裂 和 合并 在 实际 中 经 常 发 生 ， 比 如 , 两 个 机 器 工作 中 心 可 


能 有 零 部 件 到 达 流 水 线 , 然后 把 每 个 零 部 件 随机 分 开 到 某 一 个 机 器 .反之 , 一 个 机 器 可 
能 面临 许多 不 同类 型 的 零 部 件 ， 然 后 合并 成 一 条 流水 线 . 


6. 1.5 二 项 分 布 的 泊 松 近似 








次 独立 的 伯 努 利 试验 成 功 的 次 数 是 一 个 二 项 分 布 的 随机 变量 , 参数 为 xn 和 p ， 期 望 
为 np .在 本 小 节 里 , 我 们 集中 处 理 一 类 特殊 的 情况 : 2 充分 大 ， 而 p 很 小 ,均值 pp 
比较 适中 ， 如 果 考 虑 的 不 是 离散 时 间 而 是 连续 时 间 , 那 是 6. 2 讨论 的 主题 例如， 人 
们 考虑 任何 一 天 内 发 生 飞 机 事故 的 总 数 , 飞机 飞行 次 数 很 大 ， 但 是 每 次 飞机 发 生 事 
故 的 概率 p 很 小 . 或 者 考虑 一 本 书 上 的 总 共 错 误 数 : 单词 非常 多 ， 但 是 拼 错 的 概率 很 


小 . 
数学 上 ， 我 们 可 以 这 样 处 理 ， 让 2 增长 ， 但 是 同时 缩小 忆 这 样 可 以 保持 它们 的 乘积 
np 是 一 个 固定 值 和 从 极限 意义 上 看 , 二 项 分 布 的 分 布 列 可 以 简化 为 泊 松 分 布 列 ， 下 
面 将 提供 精确 的 描述 ， 注 意 , 泊 松 分 布 列 已 在 第 2 章 里 推导 出 了 很 多 很 好 的 性 质 . 
二 项 分 布 的 泊 松 近似 
。 参 数 为 和 的 泊 松 分 布 的 随机 变量 2 取 非 负 整数 值 ， 其 分 布 列 如 下 











A 
pz(k) = 人 k=0,1,2,.… 
均值 和 方差 是 


El[Z| = A, var(Z)=A. 


。 当 n 二 00, 了 = 和 nn 时 ， 二 项 分 布 的 概率 





ps(k) = -pl1—p)"* 


nl 
(nC— kk)lk! 
收敛 到 pzl 避 ， 其 中 入 是 常数 ，k 是 任意 固定 的 非 负 整数 ， 


。 泊 松 分 布 是 二 项 分 布 的 一 个 很 好 的 近似 , 只 要 和 = np， 非常 大 ， 
Dp 非常 小 . 


现在 我 们 验证 泊 松 近似 的 正确 性 ， 设 入 =mp， 则 








pslk) = mt 一 -pl —p)"* 
一世 ( >) 
大 ! nk n 
nt A) 
n n n 大 | n 
也 一] 7 一 大 十 ] 
固定 4K， 令 一 cc 比例 项 n  ”n 中 的 每 一 项 都 趋 于 1， 而 且 ” 
RE lim (1 一 L) 一 el 二 三 大 lim (1 一 A)n/ =el!l 
这 里 我 们 使 用 了 著名 的 公式 xz 一 sa 1 ， 设 /个 ， 则 mn 一 ea n , 所 以 



































1/ 八 ， 
lim(l——)”=e™ 
| no0 nn 


所 以 对 固定 的 上， 当 了 一 cc 时 我 们 有 


让 
ps(k) 一 e 人 一 


kl 
例 6.6 和 赁 经 验 知 ， 当 n>>100、p < 0.01、 和 A=np 时 ， 泊 松 近似 


We 忆 nl EE (1 —p)™ 大 
| (2 一 大) 大 ! 四 


的 精度 有 好 几 位 小 数 ， 现 在 检验 一 下 近似 的 效果 . 看 看 下 面 这 个 例子 . 


加 里 。 卡 斯 帕 罗 夫 是 国际 象棋 世界 冠军 . 他 在 一 个 表演 赛 中 同时 与 100 名 业余 爱好 者 对 
弈 .从 历史 的 经 验 来 看 , 99% 的 比赛 都 是 卡 斯 由 罗 夫 获胜 (用 精确 的 概率 术语 来 说 , 我 们 
假设 他 每 局 获胜 的 概率 为 0. 99， 而 且 各 局 比赛 独立 ). 现在 我 们 计算 他 获胜 100 场 、98 
场 、95 场 和 90 场 的 概率 分 别 是 多 少 . 


我 们 对 他 总 共 失 败 的 场 数 了 进行 建 模 ， 这 是 一 个 二 项 分 布 , 参数 为 大 100, p=0. 01. 所 
以 他 获胜 100 场 、 98 场 、95 场 和 90 场 的 概率 分 别 是 
pxf0) =(1 — 0.01)™ = 0.366, 
100! 




















S| (1 — 0.01)® = 0.185, 
px (5) m0 015f1 — 0.01)® = 0.002 90. 
00! 
1 三 三 一人 101 区 0.01) 吕 = 7.006 .10™. 
px(10) = ee 1 (1 一 0.01) 7.006 .1 


现在 我 们 来 检验 相应 的 泊 松 近似 ， 参 数 入 = 100.0.01=1 即 
pzf0) -er-1 工 0.368 
0! 人 
1 
由 一 3 es 一 < 
pz(2) 一 6 本 一 0.184. 
/fr 一 1 ] 。 
Pzl5) =e ee 0.003 06, 
51 


1 
(10) =e — = 1.00 0 
pz(10) =e i 一 1.001.1 





比较 一 下 二 项 分 布 的 _Pxft5 和 泊 松 分 布 的 zz (各 可 以 看 出 它们 对 应 的 结果 是 相近 的 . 


现在 我 们 再 假设 卡 斯 帕 罗 夫 只 跟 5 名 对 手 同 时 对 弈 ， 但 是 这 次 对 手 的 水 平 高 , 卡 斯 帕 罗 
夫 每 场 获胜 的 概率 只 有 0. 9. 这 里 二 项 分 布 的 分 布 列 Pxl 癌 中 ,有 =2P=01 相应 的 泊 
松 分 布 了 PZzLA 中 ， 入 一 7 一 0.5， 














DZ 0. 605 0. 000 16 

















从 上 表 可 看 出 ， 近 似 效果 虽 不 差 , 但 是 与 大 100、 天 0. 01 情 形 下 的 近似 效果 相 比 , 精确 

度 有 显著 的 下 降 . 

例 6.7 及 个 字符 连 成 一 串 组 成 一 个 信息 包 , 在 一 个 有 噪声 的 通道 中 传输 ， 每 个 字 
符 有 j=0. 000 1 的 概率 在 传输 中 传 错 , 而 且 不 同 字符 的 传输 过 程 是 独立 的 . 问 为 保证 在 

传输 中 发 生 和 着 误 的 概率 不 超过 0. 001， 这 时 应 该 为 多 少 ? 


每 个 字符 的 传输 可 视 为 一 个 独立 的 伯 努 利 试验 . 所 以 整个 信息 包 发 生 错误 传输 的 概率 为 








1—P(S=0)=1— (1—p)", 
其 中 5 为 错误 传输 的 字符 总 数 . 为 使 整个 信息 包 发 生 错 误 传输 的 概率 小 于 0. 001, 只 需 
军 不 等 式 1 一 (1 - 0.0001j < 0.001 ， 即 
ln 0.999 _ 
= 10.004 5. 





7 二 - 
lIn0.999 9 


同样 我 们 也 可 使 用 泊 松 近似 的 方法 来 计算 P(S = 0)， 即 PLS = 0) =e ， 这 里 
和 =np=0.000 1.n， 由 条 件 1 一 er00m lm = 0.001 可 以 得 到 


]n0.999 
0.000 1 


7 是 一 个 整数 ， 两 种 方法 都 得 出 相同 的 结果 : 2 最 多 是 10. 


= 10.005. 


6.2 泊 松 过 程 


跟 伯 努 利 过 程 相 比 , 泊 松 过 程 是 连续 时 间 轴 上 的 到 达 过 程 . 4 通常 , 一 个 到 达 过 程 在 应 用 
卖 时 间 离 散 化 时 ， 就 采用 泊 松 过 程 来 刻画 . 可 以 说 泊 松 过 程 是 伯 努 利 过 程 


4 统计 上 也 称 泊 松 过 程 为 点 过 程 ， 一 一 译 者 注 


现在 从 一 个 例子 来 看 这 种 连续 化 的 必要 性 . 考虑 一 个 城市 内 的 交通 事故 的 可 能 模型 . 可 
以 将 时 间 分 割 成 以 分 钟 为 单位 的 时 间 段 , 然后 开始 记录 下 每 4 ee 
故 的 “成 功 ” 数 据 . 假设 交通 事故 率 不 随时 间 而 发 生变 化 ， 是 个 常数 , 则 在 每 个 时 间 段 
内 发 生 事故 的 概率 是 相同 的 . 进 一 沙 信 (岂非 第 合 到 ) 在 不 同 的 时 间 设 里 事故 发 生 是 
相互 独立 的 . 这 样 得 到 的 成 功 数 据 序列 就 是 一 个 伯 努 利 过 程 ， 注 在 实际 生活 中 ， 
相同 的 一 分 钟 时 间 段 里 ， 发 生 两 次 或 者 多 次 事故 是 非常 可 能 的 . 但 是 伯 努 利 过 程 不 能 

人 特别 地 ， 它 天 法 计算 在 给 定 的 时 间 段 元 的 事 放 发 生平 区 次 

















































































































克服 这 个 缺点 的 一 种 可 行 方法 是 把 时 间 段 选 得 非常 小 , 使 得 发 生 两 次 或 多 次 事故 的 概率 
非常 小 ， 以 致 可 以 忽略 .但 是 多 少 才 算 小 ?一 秒 钟 ?” 还 是 一 毫秒 ? 为 避免 这 种 随意 的 选 
择 , 人 们 更 喜欢 考虑 这 个 时 间 段 的 长 度 趋 于 零 的 情况 ， 即 连续 型 时 间 模 型 . 
现在 考虑 连续 型 的 到 达 过 程 ， 即 任意 的 实数 t 都 有 可 能 是 到 达 时 刻 . 我 们 定义 
PIT) = 了 (在 时 间 段 长 度 为 7 的 时 间 内 有 个 到 达 ). 

注意 这 个 定义 的 内 涵 ， 它 没有 指明 区 间 的 位 置 ， 这 意味 着 , 不 管 这 个 区 间 的 位 置 在 哪 
儿 ， 只 要 时 间 区 间 的 长 度 为 7, 这 个 区 间 内 的 到 达 数 的 分 布 律 就 是 PR: Th 一 01 . 
此 外 ， 我 们 还 要 介绍 一 个 正 参 数 和 ， 称 之 为 过 程 的 到 达 率 或 者 强度 . 由 下 面 的 解释 很 快 
就 会 明白 这 个 参数 的 重要 性 . 

泊 松 过 程 的 定义 

一 个 到 达 过 程 称 为 强度 为 A 的 泊 松 过 程 , 如 果 该 过 程 具 有 如 下 性 质 : 

(时 间 同 质 性 ) k 次 到 达 的 概率 PlK,7) 在 相同 长 度 + 的 时 间 段 内 都 是 一 样 


















































(b) (独立 性 ) 一 个 特定 时 间 段 内 到 达 的 数目 与 其 他 时 间 段 内 到 达 的 历史 是 独立 的 . 
(c) (小 区 间 概 率 ) 概率 PIA,7) 满足 如 下 关系 


P(0,7) = 1— MT + o(7), 
Pl(1,7) 一 Ar + o1(7), 
Plk,T) = or(7), k= 2,3,.… 


这 里 7 的 函数 o(7) 和 okt7) 满足 


ofT) off 本) 


一 0， lm 0. 
a T 一 站 下 








第 一 个 性 质 ， 人 们 称 为 “到 达 ” 在 任何 时 候 都 是 “等 可 能 ”的 . 在 任何 长 度 为 7 的 时 
间 段 内 ， 到 达 数 具有 相同 的 统计 性 质 ， 即 具有 相同 的 分 布 律 ， 这 与 伯 努 利 过 程 中 的 假 
设 : 对 所 有 的 试验 , 成 功 的 概率 都 是 p ， 是 相对 应 的 . 


为 解释 第 二 个 性 质 ， 考 虑 一 个 时 间 长 度 为 + 一 t 的 特殊 区 间 世相 在 这 个 时 间 段 里 ， 发 
生 了 k 次 到 达 的 无 条 件 概率 是 Plk,t 一 如 .假设 我 们 手 里 有 这 个 区 间 之 外 的 完全 或 者 
部 分 到 达 的 信息 . 那么 性 质 (b) 是 说 , 这 个 信息 是 无 用 的 : 在 世相 内 发 生 了 X 次 到 达 的 
条 件 概 率 仍 是 无 条 件 概 率 P(k,# 一 如 . 这 个 性 质 类 比 于 伯 努 利 过 程 的 试验 独立 性 . 


第 三 个 性 质 非常 关键 . ot7) 和 okt7) 项 是 指 它们 相对 7 而 言 , 当 7 非常 小 的 时 候 ， 是 微 
不 足 道 的 . 可 以 将 这 些 余 项 理解 为 P(k,7) 做 泰勒 展开 时 , 展开 式 中 的 OU ) 项， 所 以 ， 
对 非常 小 的 7, 到 达 一 次 的 概率 大 致 是 Xr， 加 上 一 个 微不足道 的 项 ， 类 似 地 , 对 非常 小 
r， 没 有 到 达 的 概率 是 1 - Xr, 到 达 两 次 或 更 多 次 的 概率 与 Pl1,7) 相 比 是 可 以 忽略 




















6.2.1 区 间 内 到 达 的 次 数 


现在 开始 推导 泊 松 过 程 中 与 到 达 相 关 的 概率 分 布 ， 首 先 与 伯 努 利 过 程 建立 联系 来 计算 
一 个 区 间 内 到 达 次 数 的 分 布 列 . 


先 考虑 一 个 固定 的 长 度 为 r 的 时 间 区 间 ， 将 它 分 成 7/9 个 小 区 间 ， 每 个 小 区 间 的 长 
度 为 5,5 是 一 个 非常 小 的 数 ， 见 图 6. 5。 由 性 质 (c) 可 知 ， 任 意 一 个 小 区 间 内 有 两 次 或 
更 多 次 到 达 的 概率 是 非常 小 的 ， 可 以 忽略 不 计 ， 而 且 由 性 质 (b) 知 ， 不 同 的 时 间 段 到 达 
的 状况 又 是 相互 独立 的 ， 更 进一步 地 ， 在 每 小 区 间 内 ， 到 达 一 次 的 概率 大 致 是 MM， 没 
有 到 达 的 概率 大 致 是 1 一， 所 以 这 个 过 程 可 以 大 致 由 伯 努 利 过 程 来 近似 ， 当 5 越 来 
越 小 ， 这 个 近似 就 会 越 来 越 精确 . 




















小 区 间 数 : 每 个 小 区 间 内 到 达 数 的 期 望 : 
n=7/6 到 达 的 概率 : np= AT 
p= A 


06 6 666666 0 


a 时 间 
到 达 
图 6.5 长 度 > 的 时 间 段 内 的 泊 松 过 程 的 伯 努 利 近似 的 示意 图 


在 时 间 7 到 达 X 次 的 概率 Pk,7) 近似 地 等 于 以 每 次 实验 成 功 概率 为 P= 5, 进行 
nn 三 719 次 独立 伯 努 利 试验 ， 而 成 功 K 次 的 (二 项 ) 概率 . 现在 保持 r 不 变 ， 令 5 趋 于 








0， 我 们 注意 到 , 这 时 时 间 段 数目 2 趋 于 无 穷 大 ， 而 乘积 np 保持 不 变 , 等 于 Ar， 在 这 
种 情况 下 ， 在 上 节 里 , 我们 已 经 证 明了 二 项 分 布 趋 于 参数 为 Ar 的 泊 松 分 布 , 于 是 我 们 
可 以 得 到 如 下 重要 结论 








Jr(AT 关 


P(k,7)=e ,k=0,1,... 





注意 ， 由 e-*” 的 泰勒 展开 , 可 以 得 到 
P(0,7) =e*r"=1— M+o(7). 


P(1,7) =Me =A — Xr +O(T)= M+o(7), 





跟 性 质 (c) 相符 . 
利用 泊 松 分 布 的 均值 和 方差 的 公式 ， 可 以 得 到 
E[Nr] = Xr， var(N;) = Xr， 
其 中 Nr 表示 在 长 度 为 7 的 时 间 段 中 到 达 的 次 数 . 这 些 公 式 一 点 都 不 令 人 惊讶 . 这 是 因 
0 


现在 推导 首次 到 达 的 时 间 7 的 概率 规律 ， 假设 起 始 时 间 为 0, 则 >t 当 且 仅 当 在 时 间 
[9,4 内 没有 一 次 到 达 ， 所 以 


Fr(t}=P(T <t}=1-—P(T>t=1—-P(0,t)=1-e* 
t > 0. 


然后 我 们 对 7 的 分 布 函数 求 导 ， 得 到 概率 密度 函数 公式 
万 和 由 = Xe tz0. 


这 就 说 明 首 次 到 达 时 间 服 从 参数 为 和 的 指数 分 布 .我们 将 得 到 的 结论 总 结 为 下 表 .， 也 
可 参见 图 6. 6. 
泊 松 过 程 相关 的 随机 变量 及 其 性 质 
。 服 从 参数 为 Xr 的 泊 松 分 布 . 这 是 泊 松 过 程 的 强度 为 ,在 时 间 长 度 为 + 的 
区 间 内 到 达 的 总 次 数 入- 的 分 布 . 它 的 分 布 列 、 期 望 和 方差 分 别 是 
_ (MAT) 
ki! 
ENz] =A, var(N;)= Mr. 


。 服从 参数 为 和 的 指数 分 布 . 这 是 首次 到 达 的 时 间 7 的 分 布 ， 它 的 分 布 列 、 
期 望 和 方差 是 
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图 6.6 伯 努 利 过 程 可 以 看 成 泊 松 过 程 的 离散 化 . 我 们 将 区 间 分 为 长 度 5 的 小 区 间 ， 
每 个 小 区 间 对 应 一 个 伯 努 利 试验 , 其 参数 为 P= .上 表 汇 总 了 两 个 过 程 的 对 应 关系 


例 6.8 假设 收 电 子 邮 件 是 一 个 强度 为 每 小 时 和 = 0.2 封 的 泊 松 过 程 . 每 小 时 检查 一 次 
电子 邮件 ， 那么 接 到 0 封 和 1 封 新 邮件 的 概率 是 多 少 ? 


可 以 使 用 泊 松 分 布 ee “(Ar) /有 来 计算 ,这 里 r = 了 和 0 或 大 1 
PIi0.1)=e =0.819, P{11)=0.20 =0.104. 


又 假设 一 天 都 没有 检查 电子 邮件 . 那么 一 封 电 子 邮 件 都 没有 收 到 的 概率 是 多 少 ? 我 们 再 
次 使 用 泊 松 分 布 来 计算 ， 即 











P(0,24) = e0224 ~ 0.008 3. 


另 一 方面 ， 我 们 也 可 以 这 么 想 ， 在 一 天 24 个 小 时 里 都 没有 收 到 信息 , 那么 连续 24 个 1 个 
小 时 都 没有 收 到 信息 ， 而 后 者 24 个 事件 都 是 相互 独立 的 , 而 且 每 个 事件 发 生 的 概率 是 
P(0,1) =e "2 所 以 











P(0,24) = (P(0,1))2 = (e-%2)2 = 0.008 3. 


这 个 结果 与 上 面 的 一 样 . 








例 6. 9 (独立 泊 松 随机 变量 之 和 仍 是 泊 松 ) “顾客 去 超市 购物 可 以 用 泊 松 过 程 来 刻画 ， 
强度 为 每 分 钟 入 = 10 个 顾客 ， 记 W 为 9:00 到 9;: 10 来 超市 的 顾客 总 数 ， 六 为 9:30 到 
9:35 来 超市 的 顾客 总 数 ， 那么 + 的 分 布 是 什么 ? 


注意 ，W 是 泊 松 的 ， 参 数 是 上 = 10 x 10 = 100，W 也 是 泊 松 的 , 参数 是 v = 10 x5 = 50. 
进一步 ，W 和 VW 是 独立 的 . 在 4. 4 节 里 , 运用 和 矩 母 函 数 的 方法 已 经 证 得 M+ N 也 是 泊 
td 现在 我 们 用 直观 的 方法 来 推导 























记 NV 是 在 时 间 :10 到 9:15 来 超市 的 顾客 总 数 , 则 NN 与 样 是 泪 松 的 参数 为 50)， 
而 是 衣 与 W 独立 .所 以 M+N 的 分 布 与 M+N 的 分 布 是 一 样 的 .但 是 M+N 是 
长 度 为 15 分 钟 的 时 间 区 间 内 来 超市 的 顾客 总 数 , 所 以 仍 是 泊 松 分 布 ， 参 数 是 


10 x 15 = 150. 


这 个 例子 的 结论 是 普遍 的 ， 对 于 一 个 泊 松 过 程 来 说 , 设 了 为 若干 个 不 相 重 合 的 区 间 内 
的 到 达 总 数 , 则 随机 事件 X = 大 的 概率 为 ?lk,7), 其 中 7 为 这 些 不 相交 的 区 间 长 度 的 
总 和 . 上述 结 论 中 , 不 相交 的 区 间 的 个 数 是 不 受 限制 的 ， 只 要 他 们 的 总 长 度 为 r (在 本 
例 中 ， 我 们 处 理 的 是 时 间 段 [9:00, 9:10] 和 [9:30, 9:35], 总 时 间 是 15 分 钟 ) . 


6.2.2 独立 性 和 无 记忆 性 


泊 松 过 程 有 许多 性 质 与 伯 努 利 过 程 是 类 似 的 , 比如 不 相交 时 间 区 间 内 的 到 达 是 相互 独立 
的 ， 相 邻 时 间 分 布 的 无 记忆 性 . 泊 松 过 程 也 可 视 为 伯 努 利 过 程 的 极限 的 情况 , 所 以 泊 松 
过 程 继承 了 伯 努 利 过 程 的 许多 性 质 , 也 是 不 奇怪 的 . 


泊 松 过 程 的 独立 性 质 


。 对 任意 给 定 的 时 间 t+ > 0, 时 间 zt 之 后 的 过 程 也 是 泊 松 过 程 , 而 且 与 时 间 t 之 
前 (包括 时 间 z ) 的 历史 过 程 相互 独立 . 


。 对 任意 给 定 的 时 间 tz 令 工 是 时 间 z 之 后 首次 到 达 的 时 间 ， 则 随机 变量 
工 一 上 服从 参数 为 A 的 指数 分 布 , 且 与 时 间 上 之 前 (包括 时 间 zt ) 的 历史 过 程 
相互 独立 . 


上 表 中 的 第 一 个 性 质 成 立 , 是 因为 从 时 间 上 开始 的 过 程 满足 泊 松 过 程 定义 的 性 质 . 未 来 
与 过 去 的 独立 性 直接 来 源 于 泊 松 过 程 定义 中 的 独立 性 假设 .最 后 ,了 一 t+ 具有 相同 的 指 
数 分 布 ， 这 是 因为 


P(T 一 t+> s) =P( 在 时 间 忒 t+5] 没有 到 达 )= Pl(0,s) =e 


0 
个 性 质 


例 6.10 你 和 朋友 一 起 去 网 球场 ， 需 要 一 直 等 到 正在 打球 的 人 打 完 为 止 . 假设 (有 些 不 
太 现 实 ) 他 们 打球 的 时 间 服 从 指数 分 布 . 则 不 管 他 们 什么 时 候 开始 打球 的 ， 你 们 等 待 的 
时 间 (等 价 地 , 他 们 打球 的 剩余 时 间 ) 也 是 相同 的 指数 分 布 . 










































































例 6.11 进入 银行 ， 你 会 发 现 有 三 个 营业 员 正 在 服务 客户 , 而 且 没有 其 他 人 在 排队 等 
待 . 假设 你 的 夫 务 村 问 和 全 在 服 和 的 容 的 服务 时 间 都 是 具有 相同 参数 的 指数 分 布 , 且 
相互 独立 ， 那么 你 是 最 后 一 个 顾客 离开 银行 的 概率 是 多 少 ? 


答案 是 1/3， 从 你 开始 接受 一 名 营业 员 服 务 的 那 一 刻 算 起 , 男 两 名 正在 接受 服务 的 顾客 

还 需要 的 服务 时 间 , 与 你 所 需要 的 服务 时 间 具 有 相同 的 分 布 . 另外 两 位 顾客 , 虽然 比 你 早 

接受 服务 ， 但 由 于 泊 松 过 程 的 无 记忆 性 , 他 们 与 你 处 于 同一 起 跑 线 上 ， 不 算 以 前 的 服务 

三 人 所 需 的 服务 时 间 的 分 布 是 相同 的 . 所 以 你 和 其 他 两 人 具有 相同 的 概率 最 后 离 
人 


6.2.3 相 邻 到 达 时 间 
设 有 一 个 从 时 刻 0 开始 的 泊 松 过 程 . 与 这 个 过 程 相关 的 重要 的 随机 变量 是 第 次 成 功 
(或 到 达 ) 的 时 间 , 记 为 先 ， 与 丈 密切 相关 的 变量 是 第 次 相 邻 到 达 的 时 间 , 记 为 次 
这 些 变量 满足 如 下 关系 

T=Y, T= k=2,3,.… 


| 的 含义 是 在 天 一 1 次 成 功 之 后 到 下 次 成 功 所 需 的 时 间 . 由 上 面 的 关系 , 可 以 推 
到 
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Yi = T+ + 


我 们 已 经 得 到 首次 到 达 的 时 间 五 服从 参数 为 和 的 指数 分 布 . 第 一 次 在 时 刻 五 成 功 之 
后 , 未 来 是 一 个 新 的 泊 松 过 程 , ?因此 , 下 次 到 达 所 需 的 时 间 三 和 厂 有 相同 的 分 布 ， 进 
一 步 ， 过 去 的 过 程 (直到 ， 且 包括 时 间 五 ) 与 未 来 的 试验 (从 时 刻 五 以 后 开始 ) 是 独立 
的 . 既然 五 仅仅 由 未 来 决定 ， 所 以 五 与 五 独立， 类 似 继续 下 去 , 我们 可 以 得 到 随机 
变量 序列 及, 了 2,13,… 是 相互 独立 的 , 而 且 具 有 相同 的 指数 分 布 . 























5 以 前 我 们 说 的 随机 过 程 “重新 开始 ”是 指 从 任意 固定 的 时 刻 上 开始 的 随机 过 程 ， 现 在 的 “重新 开始 ”结论 比较 
强 ， 这 是 因为 开始 时 刻 了 是 随机 变量 , 但 是 这 个 结论 还 是 很 直观 的 . 可 以 用 类 似 例 6. 3 的 证 明 方 法 证 明 这 个 重新 开 
始 的 过 程 还 是 一 个 泊 松 过 程 , 即 对 匡 可 能 的 取 值 取 条 件 的 方法 , 来 证 明 现 在 的 结论 . 
这 个 重要 的 结论 , 可 以 给 泊 松 过 程 一 个 等 价 的 另 一 种 描述 方法 . 

泊 松 过 程 另 一 种 描述 


(1) 开始 于 一 串 相 互 独立 并 且 公共 参数 为 和 的 指数 随机 变量 序列 五 , 及,…,, 它们 
是 相 邻 到 达 时 间 . 


(2) 过 程 的 到 达 的 时 间 为 五 ,五 十 五 ,五 二 五 十 五 ， 等 等 . 这 样 形成 的 随机 过 程 
就 是 泊 松 过 程 . 
6.2.4 第 次 到 达 的 时 间 


第 & 成 功 的 时 间 迁 等 于 k 个 独立 同 分 布 且 服 从 指数 分 布 的 随机 变量 之 和 , 即 
迁 一 五 二 十 天 .这 样 我 们 就 可 以 利用 下 表 计 算 系 的 期 望 、 方 差 和 概率 密度 函数 . 





























































































































第 £ 次 到 达 的 时 间 的 性 质 
。 第 £ 次 到 达 的 时 间 等 于 前 & 个 相 邻 到 达 时 间 之 和 
Yi = T+ + 
而 且 五 ,… 到 独立 同 分 布 ， 服 从 参数 为 和 的 指数 分 布 . 
。 下 的 期 望 、 方 差 为 


天 


var(¥Y.) = var(TL) + + var(T) = 二 


。 耻 的 概率 密度 函数 是 


My -le 和 y a 
(kl 7 二 ， 


这 就 是 著名 的 阶 数 为 4 的 埃 尔 朗 分 布 


| “也 称 徊 玛 分 布 ， 一 一 译 者 注 


fy (y) = 























下 面 我 们 来 证 明 和 的 概率 密度 函数 公式 ， 对 非常 小 的 5， 乘 积 “jity 可 以 近似 看 成 
第 个 到 达 发 生 在 时 刻 了 与 y+5 之 间 的 概率 . 当 5 非常 小 时 ， 在 区 间 [y+ 引 到 
达 的 次 数 超 过 一 次 的 概率 是 可 以 忽略 的 .在 了 与 Y+5 之 间 第 ki 次 到 达 发 生 当 且 仪 当 

下 面 两 个 事件 同时 发 生 . 






































7 下 面 介绍 另 一 种 推导 方法 , 不 使 用 近似 方法 论证 ， 注 意 到 对 任意 的 Y 二 0, 事件 { 迁 三 丰 与 下 列 事件 相同 
{ 在 时 间 [0, 如 内 至 少 到 达 4 次 }. 
所 以 区 的 分 布 是 hs 


0 Ek—l 
| | Nt , ， {(Ay)re -入 
Py.{y)} = P{Y < = > Pln,y)}=1— 2, Pln,y)=1— > nn 
还 的 概率 密度 函数 可 通过 将 上 述 表 过 式 将 款 好 得 到 , 直接 求 导 就 可 以 得 到 埃 尔 朗 概率 密度 函数 公式 
一 Le 一 


d My le 
fy) = oy = TE 










































































(a) 事件 4: 在 时 间 段 yy+ 引 到 达 了 一 次 ; 
(b) 事件 EF 在 时 间 了 之 前 恰好 发 生 了 人 1 次 . 
这 两 个 事件 发 生 的 概率 分 别 是 

P(A) ~ %, 


Mlyk-le—Xy 


P(B) = P(k —1,y)= 


事件 4 与 8 是 相互 独立 的 ， 所 以 


Mlyk-le-Xy 
ofy (WD) TPly < YY y+) P(ANMB) = P(A)P(B) SS 和 


所 以 

M1-le—*y 
(大 一 1)1 

例 6. 12 你 拨打 国税 局 的 热线 电话 后 ， 被 告知 ， 除 正在 接受 服务 的 人 外 , 你 前 面 还 有 


55 位 等 竺 服务， 呼叫 者 离开 所 需 时 间 是 泊 松 过 程 , 强度 和 是 每 分 钟 2 人 ， 那 么 平均 而 
言 , 直到 接受 服务 你 需要 等 待 多 长 时 间 ? 你 的 等 待 时 间 超 过 30 分 钟 的 概率 是 多 少 ? 


利用 无 记忆 性 , 正在 接受 服务 的 人 还 需 服务 的 时 间 服 从 参数 为 = 2 的 指数 分 布 . 所 以 
你 前 面 55 人 的 服务 时 间 也 是 服从 参数 为 = 2 的 指数 分 布 . 而 且 所 有 这 些 变量 都 是 独 
立 的 ， 所 以 你 等 等 的 时 间 ( 记 为 了 ) 是 56 阶 的 埃 尔 朗 分 布 ， 所 以 


fy.(y) = 之 0. 

















你 的 等 待 时 间 超 过 30 分 钟 的 概率 是 


2 和 56 We 一 
P(Y > 30) = | -一 - dy. 


Ja0 551 





计算 上 述 概率 非常 麻烦 ， 另 一 方面 ， 既 然 了 是 一 串 独立 同 分 布 随 机 变量 序列 之 和 , 我 
们 可 以 使 用 中 心 极限 定理 和 正 态 分 布 表 来 近似 计算 . 


6. 2.5 泊 松 过 程 的 分 裂 与 合并 


类 似 于 伯 努 利 过 程 ， 强 度 为 和 的 泊 松 过 程 , 也 可 以 按 如 下 的 方法 进行 分 裂 : 每 当 有 一 
个 到 达 时 ， 我 们 选择 保留 下 来 (概率 为  )， 或 者 抛弃 (概率 为 1-p )， 独 立 于 其 他 的 
到 达 . 在 伯 努 利 过 程 ， 我 们 知道 分 裂 后 的 过 程 仍 是 伯 努 利 的 ， 在 现在 的 情况 下 , 泊 松 过 
程 分 裂 出 来 的 过 程 仍 是 泊 松 的 ， 只 是 强度 为 . 


类 似 地 , 如 果 有 两 个 相互 独立 的 泊 松 过 程 (参数 分 别 是 和 和 Xz) ， 在 这 两 个 原始 的 过 程 
中 ， 随 便 哪 一 个 到 达 ， 就 认为 是 新 过 程 的 一 个 到 达 ， 这 个 新 过 程 就 是 原来 过 程 的 合并 
过 程 ， 可 以 证 明 这 个 合并 过 程 还 是 泊 松 的 ， 强 度 为 和 1 十 和 9， 合并 后 的 过 程 ， 任 何 一 个 
到 达 状 态 以 AtAi + 和) 的 概率 来 自 于 第 一 个 泊 松 过 程 ， 以 各/( 和 + 各) 的 概率 来 自 
于 第 二 个 泊 松 过 程 . 

我 们 举例 来 说 明 这 些 性 质 ， 同 时 提供 证 明 方法 . 

例 6. 13( 泊 松 过 程 的 分 裂 ) ”到 达 数 据 网 络 某 个 节点 的 信息 包 可 能 是 目的 地 信息 包 ( 目 
的 地 信息 包 的 定义 是 : 这 个 信息 包 以 该 节点 为 目的 地 ， 让 凋 千 发 到 其 季节 点， 到 达 的 信 


恩 包 为 目的 地 信息 包 的 概率 为 p ), 也 可 能 是 转发 的 信息 包 (这 种 事件 发 生 的 概率 为 1-p 
), 这 样 的 信息 包 必 须 转发 到 其 他 节点 .信息 包 到 达 节 点 的 过 程 是 泊 松 过 程 , 强度 为 和 ， 












































而 且 到 达 信 息 包 的 类 别 与 其 他 到 达 信 息 包 的 类 别 是 相互 独立 的 .如 前 所 述 , 接收 目的 
地 信息 包 的 过 程 也 是 泊 松 的 ， 强 度 是 名 . 下 面 对 此 进行 解释 . 


我 们 只 需 验 证 目的 地 信息 包 的 到 达 过 程 满 足 泊 松 过 程 的 定义 . 因为 A 和 p 是 常数 ， 不 
随时 间 变 化 而 变化 . 任何 时 间 长 度 为 r 的 区 间 内 的 到 达 次 数 的 分 布 与 这 个 区 间 的 位 置 
无 关 . 所 以 第 一 条 性 质 (时 间 同 质 性 ) 满足 ， 进 一 步 , 无论 到 达 的 信息 包 是 否 为 目的 地 
信息 包 ， 在 不 相交 的 时 间 区 间 内 , 这 些 事件 都 是 彼此 独立 的 ， 这 就 验证 了 泊 松 过 程 关于 
独立 性 的 第 二 条 性 质 . 最 后 ， 我 们 重点 研究 长 度 为 5 的 一 个 小 区 间 , 目的 地 信息 包 到 达 
的 概率 就 是 事件 : 有 一 个 信息 包 进入 节点 , 而 且 这 个 信息 包 就 是 目的 地 信息 包 的 概率 ， 
这 个 概率 近似 于 和 6"P， 另 外 , 两 个 或 多 个 目的 地 信息 包 到 达 节 点 的 概率 相对 于 5 而 
言 , 是 忽略 不 计 的 , 这 就 验证 了 泊 松 过 程 关 于 小 区 间 内 到 达 次 数 的 分 布 列 的 第 三 条 性 质 . 
所 以 我 们 得 出 目的 地 信息 包 到 达 过 程 也 是 泊 松 过 程 。 特别 地 , 在 长 度 为 + 的 时 间 内 , 到 
达 的 目的 地 信息 包 的 数目 服从 强度 为 Pr 的 泊 松 分 布 . 由 对 称 性 ， 转 发 信息 包 的 到 达 
过 程 也 是 泊 松 的 ， 强 度 是 上 1 一 局 A 有 点 奇怪 的 是 , 从 原始 泊 松 过 程 分 裂 出 去 的 两 个 泊 松 
过 程 居然 是 相互 独立 的 . 见 本 章 末 习题 . 


例 6. 14( 泊 松 过 程 的 合并 ) ”人 们 去 邮局 寄 信 的 到 达 过 程 是 泊 松 过 程 ， 强 度 是 Ai ,去 
邮局 邮寄 包 右 的 到 达 过 程 也 是 泊 松 过 程 ， 强 度 是 和 2 , 而且 邮 信和 与 邮包 于 是 独立 的 .这 
样 , 人 们 进 邮 局 办 事 ( 寄 信 或 邮寄 包 衷 ) 的 到 达 过 程 是 泊 松 的 , 强度 是 入 二 入 ， 下 面 对 

此 进行 解释 . 

首先 , 合并 后 的 过 程 显然 满足 泊 松 过 程 的 时 间 同 质 性 (时 间 区 间 内 到 达 个 数 的 分 布 列 只 

与 区 间 的 长 度 有 关 , 与 区 间 的 起 始 时 刻 无 关 ) 进一步 , 原来 的 两 个 随机 过 程 在 不 同 的 时 间 
区 间 内 所 发 生 的 事件 是 相互 独立 的 , 所 以 合并 后 的 过 程 在 不 同 的 时 间 区 间 内 所 发 生 的 事 
件 也 是 相互 独立 的 . 这 说 明 合并 后 的 过 程 也 符合 泊 松 过 程 定义 中 的 独立 性 要 求 . 现在 考 

虑 长 度 为 5 的 小 区 间 , 在 下 面 的 论证 过 程 中 近似 号 “<#” 表 示 两 边 相 差 一 个 与 5 相 比 

可 忽略 的 项 ， 我 们 有 


P (合并 后 过 程 在 小 区 间 内 无 到 达 ) 信 (1— A16){1 = A26) 1 一 (A A 和 216， 
P (合并 后 过 程 在 小 区 间 内 只 有 1 次 到 达 )s Ni5(1 一 Na5)+Xa5(1 一 N5)s (Ni+X2)5. 


由 上 式 看 出 ， 合 并 后 的 过 程 满足 泊 松 过 程 定义 的 第 三 个 要 求 , 并 且 其 强度 参数 为 


Al 十 A2. 


假设 记录 了 一 个 人 进入 邮局 ， 问 这 个 人 来 寄 信 的 概率 是 多 少 ?首先 将 焦点 放 在 某 时 刻 附 
近 的 时 间 长 度 为 5 的 小 区 间 内 , 此 时 把 问题 化 为 一 个 条 件 概率 的 计算 问题 , 即 计算 


P(1 个 寄 信 的 人 进 了 邮局 | 有 个 人 进 了 邮局 ). 
使 用 条 件 概 率 的 定义 ， 忽 略 超过 1 个 人 进 邮局 那些 小 概率 值 ， 得 到 


PQ 个 寄 信 的 人 进 了 邮局 。 X65 _ 六 
P( 有 个 人 进 了 邮局 ) Sr 































































































由 泊 松 过 程 的 性 质 可 知 ， 这 个 条 件 概 率 与 这 个 人 进入 邮局 的 时 刻 无 关 , 无 论 他 何 时 进入 
邮局 , 这 个 人 是 来 “ 寄 信 ”的 概率 也 是 AtAi + X2) 现在 记 Lk 为 事件 “第 k 个 进入 
邮局 的 人 是 来 寄 信 的 ”， 类 似 可 得 








Al 
A +" 和 2 


因为 不 同 的 人 ， 到 达 的 时 间 也 不 一 样 ， 所 以 ， 对 泊 松 过 程 , 不 同时 间 的 事件 是 相互 独立 
的 , 所 以 随机 事件 ,12,…* 是 独立 的 


例 6. 15( 竞 争 指数 ) ”两 个 灯泡 8 具有 独立 的 寿命 入, 它们 分 别 服从 参数 为 X 和 
和 % 的 指数 分 布 . 问 两 个 灯泡 首次 烧 坏 的 时 间 2 = min{7a; 五 上 的 分 布 是 什么 ? 


8 如 果 把 两 个 灯泡 串联 起 来 ， 形 成 一 个 串联 系统 . 当 其 中 一 个 灯泡 寿 终 的 时 候 , 系统 就 寿 终 . 系统 的 寿命 就 是 本 例 中 
的 首次 烧毁 的 灯泡 的 寿命 . 串联 系统 在 可 靠 性 统计 具有 重要 的 地 位 . 一 一 译 者 注 


对 任意 的 > 过 0， 有 
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Fz(z) =P(min{T, DB,} < 2) 
=1— Plmin{T,, Tn} > 
=1—P(T,-: 人 
一 1 一 P(T > z)P(T, > z) 
一 1 _e-)ase-Xxu: 


一 1 一 e 一 (Aa 十 Abj> 


这 就 是 参数 为 + 的 指数 分 布 的 分 布 函数 . 所 以 两 个 独立 的 参数 分 别 为 Mn 和 总 
的 指数 分 ) 布 随机 变量 之 较 小 的 随机 变量 服从 参数 为 Xe 十 的 指数 分 布 . 


可 以 更 直观 地 解释 这 个 事实 .假设 五 和 五 分 别 是 强度 为 xx 和 入 的 泊 松 过 程 首 次 
到 达 的 时 间 . 如 果 我 们 将 两 个 过 程 合 并 ， 那么 首次 到 达 的 时 间 是 minf7a, 五 上 我们 已 经 
知道 合并 后 的 过 程 是 强度 为 + 和 的 泊 松 过 程 ， 所 以 首次 到 达 时 间 min{ya, 五 | 是 指 
数 分 布 ， 参 数 为 Xa 二 和 


于 而 的 全 全 全 四 广 到 更 多 过 程 的 情形 . 即 4 人 强度 分 别 为 
和 1,… ,和 n, 则 合并 后 的 过 程 仍然 是 泊 松 的 ， 强 度 是 A 十 … 十 ? Mn. 


例 6. 16 (竞争 指 数 的 进一步 讨论 ) ”点 亮 三 蕊 灯泡 ， 其 寿命 分 布 都 是 参数 为 的 指数 
分 布 ， 而 且 相 互 独立 . 那么 直到 最 后 一 瘟 灯 泡 烧 坏 的 时 间 的 期 望 值 是 多 少 ? 


我 们 已 经 讲 过 ， 每 瘟 灯 泡 烧 坏 的 时 间 可 视 为 独立 泊 松 过 程 的 首次 到 达 时 间 . 开始 ， 我 们 
有 三 草 灯 泡 ， 所 以 合并 后 的 过 程 是 泊 松 过 程 , 强度 是 3 和 A、 所 以 第 一 次 烧 坏 的 时 间 五 
服从 指数 分 布 , 参数 是 3X 均值 是 1/3^， 一 旦 有 一 蔓 灯 泡 烧 坏 了 , 由 指数 分 布 的 无 记 
忆 性 ， 剩 下 的 两 个 灯泡 的 寿命 时 间 仍 是 指数 分 布 , 而 且 独 立 ， 重 新 开始 ， 所 以 我 们 有 两 
个 泊 松 过 程 . 利 下 的 两 个 过 程 合并 后 仍 是 泊 松 过 各 强度 是 2 和 故 首次 烧 坏 的 时 间 至 
服从 指数 分 布 ， 参 数 是 2X, 均值 是 1/2^， 最后， 在 第 二 蔓 灯 泡 烧 坏 之 后 ， 只 剩 下 一 昔 
灯泡 . 再 次 运用 无 记忆 性 ， 最 后 一 瘟 灯 泡 烧 坏 的 时 间 至 是 指数 分 布 ， 参 数 是 % 均值 
是 LA， 故 整个 时 间 的 期 望 值 是 
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BN+B+Bn]=ay tart 








注意 ， 因 为 无 记忆 性 ， 随 机 变量 五 、E、E3 是 独立 的 . 这 样 ， 人 们 也 可 以 计算 总 时 间 
的 方差 

rar( 了 十 123 十 73) == var( 卫 ) 十 Var(72) 十 Vvarl7T3) = a WR 

Varlll 2 3 Varlil VaIT 2 VaIL3 二 gn 1 2 


6. 2.6 伯 努 利 过 程 和 泊 松 过 程 ， 随 机 变量 之 和 


利用 伯 努 利 过 程 和 泊 松 的 分 裂 和 合并 的 性 质 , 可 以 既 巧妙 又 直观 地 得 到 独立 随机 变量 之 
和 的 许多 有 趣 的 性 质 当然 , 你 也 可 以 直接 按 定义 推导 出 有 关 分 布 ， 或 者 利用 和 矩 母 函 数 
进行 分 布 推导 .但 是 这 些 方法 都 不 是 很 直观 .我们 将 这 些 性 质 归 纳 如 下 表 . 





























随机 数 个 独立 随机 变量 和 的 性 质 
设 WV ，X1,… ,Xn 是 独立 随机 变量 ， 其 中 WwW 取 非 负 整 数 . 当 N > 0 时 ， 定 义 
了 = X+…+Xw， 当 /FE0 时 ， 定 义 产 0. 


。 如果 Xi 的 分 布 是 参数 为 p 的 伯 努 利 分 布 , 的 分 布 是 参数 为 m 和 9 的 二 
项 分 布 , 则 了 的 分 布 是 参数 为 m 和 pg 的 二 项 分 布 . 


。 如果 Xi 的 分 布 是 参数 为 p 的 伯 努 利 分 布 ,W 的 分 布 是 参数 为 和 的 泊 松 分 
布 ， 则 了 的 分 布 是 参数 为 部 的 泊 松 分 布 . 


。 如果 Xi 的 分 布 是 参数 为 p 的 几何 分 布 ,VW 的 分 布 是 参数 为 9 的 几何 分 布 ， 
则 了 的 分 布 是 参数 为 pg 的 几何 分 布 . 


。 如果 六; 的 分 布 是 参数 为 的 指数 分 布 ,VW 的 分 布 是 参数 为 9 的 几何 分 布 ， 
则 六 的 分 布 是 参数 为 和 Mg 的 指数 分 布 . 


前 两 个 性 质 在 习题 22 中 证 明 ， 第 三 个 性 质 在 习题 6 中 证 明 , 最 后 一 个 性 质 在 习题 23 中 证 
明 . 最 后 三 个 性 质 也 在 第 4 章 中 得 到 证 明 , 在 那里 是 使 用 矩 母 函数 的 方法 来 证 的 (参见 4. 4 
节 和 第 4 章 的 最 后 一 个 习题 . 此 外 , 在 习题 24 中 给 出 了 另 一 个 有 趣 的 性 质 , 即 记 Nt 是 在 
长 度 zt 的 时 间 内 强度 A 的 泊 松 过 程 到 达 的 总 数目 , 7 为 时 间 长 度 ， 服 从 参数 为 v 的 
指数 分 布 ， 且 与 泊 松 过 程 独立 , 则 Nr +1 的 分 布 是 几何 分 布 ， 参 数 为 WA 二 o 


下 面 我 们 讨论 一 个 更 深 的 相关 E 质 ， 一 个 非常 大 数目 多 个 的 独立 到 达 过 程 ( 不 必 是 泊 
松 ) 的 合并 , 是 否 可 以 用 强度 为 各 自强 度 之 和 的 泊 松 过 程 来 近似 呢 ? 每 个 过 程 的 强度 相对 
总 过 程 而 言 是 非常 小 的 (所 以 它们 之 间 没 有 一 个 过 程 对 总 过 程 的 概率 特征 施加 影响 ), 而 
且 和 它们 必须 满足 一 些 数学 上 的 假设 .更 深 的 讨论 超出 本 书 的 范围 . 但 是 注意 ， 在 实际 
中 , 的 确 需要 对 大 量 类 似 泊 松 的 过 程 的 大 样本 性 质 进行 分 析 ， 比 如 , 城市 里 的 电话 通信 
流量 就 是 由 许多 分 支 的 小 的 过 程 合并 而 成 , 每 个 分 支 的 小 过 程 刻 画 了 当地 居民 打 电 话 的 
性 质 . 这 些小 的 过 程 不 一 定 是 泊 松 的 。 比 如 , 有些 人 喜欢 一 批 人 一 起 打 电 话 (小 型 电话 会 
议 ), 同时 一 个 人 在 打 电 话 的 时 候 是 无 法 接听 第 二 个 电话 的 . 但 是 , 将 许多 小 的 过 程 合 


































































































以 后 可 以 使 用 泊 松 过 程 来 刻画 ， 相 同 的 原因 , 城市 里 汽车 事故 的 过 程 、 商 店 里 顾客 的 到 
达 过 程 、 放 射 性 物质 的 粒子 发 射 过 程 等 , 都 可 以 使 用 泊 松 过 程 . 


6.2.7 随机 插入 的 悖 论 


泊 松 过 程 的 到 达 时 间 序 列 将 时 间 轴 分 割 成 一 串 相 邻 的 时 间 间 隔 序列 , 每 个 时 间 段 开始 于 
一 个 到 达 ， 结 束 于 下 一 个 到 达 . 已 经 证 得 每 个 相 邻 时 间 段 的 长 度 ( 称 为 相 邻 到 达 时 间 ) 是 
相互 独立 的 、 参 数 为 和 的 指数 分 布 的 随机 变量 , 其 中 入 是 泊 松 过 程 的 强度 .更 精确 地 
说 ， 对 每 个 £ ,第 & 个 相 邻 到 达 时 间 服 从 指数 分 布 ， 在 这 个 小 节 里 , 我 们 从 另 一 个 角 
度 来 看 这 些 相 邻 到 达 时 间 . 


固定 一 个 时 间 点 蕊 现在 来 看 包含 时 间 点 #*、 长 度 为 2 的 相 邻 时 间 段 . 现在 看 一 看 这 
个 问题 的 实际 背景 ， 比 如 有 一 个 人 , 在 一 个 任意 的 时 间 点 此 到 达 公共 汽车 站 , 然后 记 
录 前 次 汽车 到 达 与 下 一 次 到 达 的 时 间 间隔 . 通常 称 这 个 人 的 到 达 为 “随机 插入 ”， 然 
而 ， 这 个 词汇 容易 引起 误导 ,三 只 是 一 个 特定 的 时 间 ， 不 是 随机 变量 . 


假设 t* 比 泊 松 过 程 的 起 始 时 间 大 得 多 ， 所 以 可 以 明确 地 知道 , 在 时 间 上 之 前 有 到 达 . 
为 避免 时 刻 上 所 引发 的 这 种 担忧 , 我 们 假设 泊 松 过 程 的 起 始点 为 -cc， 所 以 可 以 确信 
在 时 间 t 之 前 有 到 达 ， 从 而 上 有 定义 . 人 们 会 错误 地 认为 A 只 是 一 个 “典型 ”的 相 
邻 时 间 段 的 长 度 , 因此 也 是 指数 分 布 的 ， 但 是 这 是 错误 的 .事实 上 ， 我 们 将 证 明 Z 服从 
阶 数 为 2 的 埃 尔 朗 分 布 . 


的 随机 插入 的 影响 或 者 随机 插入 悖 论 , 可 以 使 用 图 6. 7 来 解释 ， 假 设 IW] 
含 时 刻 # 的 相 邻 时 间 段 , 则 L=V 一 U， 特别 地 ，V 是 tr 之 前 的 最 后 一 次 到 达 时 
间 ， 上 是 #* 之 后 的 首次 到 达 时 间 . 将 /分 成 两 部 分 


一 修一 四 十 (Y 一 万)， 


其 中 二-C 是 已 经 过 去 的 时 间 ,V -二 是 剩 下 的 时 间 . 注意 ,t* 一 U 取决 于 过 程 的 历史 
( # 之 前 )， 而 VV 一 取决 于 过 程 的 未 来 ( 二 之 后 )， 由 泊 松 过 程 的 独立 性 ， 随 机 变量 
VV 一 # 与 一 U 是 独立 的 ， 由 泊 松 过 程 的 无 记忆 性 ， 泊 松 过 程 从 时 刻 #* 重新 开始 , 所 
以 VV 一 #* 也 是 参数 为 和 的 指数 分 布 . 当然 随机 变量 二 -0 也 是 指数 的 ， 参 数 为 入 得 
到 这 个 结论 的 最 简单 方法 就 是 ， 如果 泊 松 过 程 倒 着 运行 ， 仍 是 泊 松 过 程 . 这 是 因为 泊 松 
过 程 的 定义 中 时 间 不 管 是 顺 着 的 还 是 倒 着 的 ， 没 有 什么 区 别 . 下 面 的 公式 是 关于 tt 一 U 
的 分 布 之 结论 的 严格 证 明 


P(t* 一 U > 7z) =P( 在 时 间 段 此 一 zz 如] 内 没有 到 达 )= P(0,7)=e*,， zrz>>0. 


于 是 我 们 就 证 明了 L 是 两 个 参数 为 的 独立 指数 分 布 随机 变量 之 和 , 即 是 阶 数 为 2 的 埃 
尔 朗 分 布 ， 均 值 是 2/^. 













































































时 间 


流逝 的 时 间 选 定 的 时 刻 剩余 的 时 间 
tt—U Vt 


图 6.7 随机 插入 影响 示意 图 ， 对 于 固定 时 间 点 #， 对 应 的 相 邻 时 间 段 WV] 的 组 

成 : 流逝 时 间 #* 一 U 与 剩余 时 间 V 一 + 这 两 个 时 间 变量 是 独立 的 ， 服 从 参数 为 和 
的 指数 分 布 ， 所 以 它们 之 和 服从 阶 数 为 2 的 埃 尔 朗 分 布 

随机 插入 现象 通常 让 人 产生 误解 和 造成 失误 , 但 是 这 通常 能 够 通过 仔细 地 选择 概率 模型 
来 避免. 关键 的 问题 是 , 一 个 观测 者 到 达 的 任意 时 刻 更 可 能 落 在 一 个 较 大 而 不 是 较 小 的 
时 间 间 隔 区 间 里 ， 因 此 ， 在 这 种 情况 下 , 观测 者 观测 的 平均 长 度 将 为 2/^, 比 指数 分 布 

的 均值 1/^A 要 大 ， 类 似 的 情况 在 下 面 的 例子 中 也 会 发 生 . 


例 6. 17( 非 泊 松 达到 过 程 中 的 随机 影响 ) ”公交 车 按照 一 定 的 规定 分 别 于 整 点 和 整 点 
后 5 分 钟 到 达 车 站 ， 这 样 到 达 间 隔 时 间 在 5 分 钟 和 55 分 钟 交 蔡 ， 平 均 到 达 间 隔 时 间 是 30 
分 钟 ， 一 个 人 在 某 随 机 时 刻 到 达 公 交 车 站 .我 们 说 “随和 ”是 指 在 茶 特 定 小 时 内 均匀 
分 布 . 这 村 一 个 人 沙 在 长 度 为 5 的 同 隔 区 间 的 概率 为 12， 落 在 长 度 为 55 的 间隔 区 间 的 


概率 为 12， 则 到 达 间 隔 时 间 的 期 望 值 是 


















































这 比 平均 到 达 间 隔 时 间 30 分 钟 要 大 得 多 . 


如 上 例 所 示 ， 随 机 插入 是 一 个 引起 更 大 的 相 邻 到 达 时 间 间 隔 的 微妙 现象 , 已 在 非 泊 松 过 
程 的 上 文中 被 很 好 地 说 明 . 更 一 般 地 说 , 当 不 同 的 计算 方法 给 出 了 相悖 的 结论 时 , 往往 是 
他 们 给 予 了 不 同 的 概率 机 制 . 比方 说 ， 考 虑 给 定 一 个 非 随机 的 x ， 观 察 相 应 的 第 K 个 
相 邻 到 达 时 间 的 试验 与 固定 时 间 z ,观察 第 A 个 相 邻 到 达 时间 间 隔 履 盖 上 的 试验 是 
完全 不 同 的 , 其 中 可 视 为 随机 变量 . 


考虑 最 后 一 个 有 类 似 味道 的 例子 . 关于 城市 公交 车 使 用 情况 的 调查 , 一 种 方法 是 随机 选 
择 一 些 公交 车 ， 并 计算 所 选 车 辆 的 平均 乘 车 人 数 . 男 一 种 方法 是 随机 选择 一 些 公交 乘 
客 , 观察 他 们 所 乘 的 公交 车 并 计算 出 这 些 车 上 的 平均 乘 车 人 数 . 这 两 种 方法 得 到 的 估计 
有 很 大 的 不 同 , 而 第 三 种 方法 的 估计 明显 偏 高 ， 原 因 是 当 使 用 第 二 种 方法 时 , 我 们 更 容 
易 选 择 到 具有 大 量 乘客 的 公交 车 , 而 不 是 几乎 空 着 的 车 . 





























6.3 小 结 和 讨论 


在 本 章 中 ， 我 们 介绍 和 分 析 了 两 种 无 记忆 到 达 过 程 . 伯 努 利 过 程 涉及 离散 时 间 ， 在 每 一 
个 放 时 间 中 部 有 一个 党 值 的 到 大概 p . 泊 松 过 程 涉及 连续 时 间 , 对 于 每 一 个 长 度 为 

~ 0 的 小 区 间 内 ， 都 有 一 个 到 达 的 近似 概率 X5. 在 两 种 情况 中 ， 不 相 邻 的 时 间 间 隔 中 
到 达 的 次 数 古 独立 的 在 离散 时 间 间 陋 是 一 个 很 小 的 值 5 时 ， 泊 松 过 程 可 以 看 作 是 伯 
努 利 过 程 的 极限 情况 .这 个 事实 可 以 用 来 提炼 两 个 过 程 主要 性 质 的 相似 处 ， 将 一 个 过 
程 的 本 质 转移 到 男 一 个 过 程 中 . 


使 用 伯 努 利 过 程 和 泊 松 过 程 的 无 记忆 性 ， 我 们 得 到 如 下 结论 : 

(a) 对 于 给 定 长 度 的 时 间 间 隔 ， 到 达 次 数 的 分 布 列 是 二 项 分 布 或 泊 松 分 布 ; 
(b) 相 邻 到 达 时 间 分 别 服 从 几何 分 布 和 指数 分 布 ; 

(c) 第 次 到 达 时 间 的 分 布 分 别 为 £ 阶 帕斯卡 分 布 和 k 阶 埃 尔 朗 分 布 . 


此 外 ， 我 们 发 现 ， 可 以 从 两 个 独立 的 伯 努 利 ( 或 泊 松 ) 过 程 开 始 , 将 它们 合并 后 形成 一 个 
新 的 伯 努 利 (或 泊 松 ) 过 程 . 相 反 地 , 如 果 以 投 搓 便 币 的 成 功 概率 p 接受 每 一 次 到 达 

(“ 分 裂 ”), 则 接受 的 到 达 过 程 仍 是 伯 努 利 过 程 或 泊 松 过 程 , 只 是 平均 到 达 率 或 强度 是 
原始 到 达 素 的 太 和 


我 们 最 后 考虑 了 随机 插入 现象 , 它 是 指 一 个 外 在 观测 者 在 茶 特 定时 刻 到 达 并 测量 了 他 到 
达 的 那个 到 达 时 间 间 隔 . 测量 的 区 间 的 概率 性 质 与 传统 的 “典型 ”的 到 达 间 隔 区 间 的 概 
率 性 质 不同 , 原因 就 在 于 观测 者 的 到 达 时 间 更 可 能 会 落 入 大 一 人 
中 . 这 种 现象 说 明 ， 当 谈 及 “典型 ”区 间 时 ， 我 们 必须 仔细 描述 区 间 选 择 的 机 制 ， 

的 机 制 会 导致 不 同 的 统计 性 质 . 




































































习题 

6.1 节 伯 努 利 过 程 

1， 某 单位 有 两 辆 货车 , 一 辆 是 红色 的 ， 男 一 辆 为 绿色 的 . 现在 一 共有 个 包 事 需 装 到 
车 上 . 装 车 的 时 候 , 每 一 个 包 囊 都 是 独立 地 放 到 红色 货车 (以 概率 p ) 或 绿色 货车 (以 
概率 1-p ) 上 的 ， 设 〖 为 红 车 上 包 于 的 总 个 数 ，G 表示 绿 车 上 包 右 的 总 个 数 . 

(a) 确定 随机 变量 〖R 的 分 布 列 、 期 望 和 方差 值 . 


(b) 求 第 一 次 装 车 的 时 候 将 一 个 包 右 装 上 某 辆 车 , 一 直到 装 完 第 2 个 包 里 以 后 ， 这 辆 
车 上 还 只 有 一 个 包 于 的 概率 . 


(c) 计算 在 装 完 贷 以 后 至 少 有 一 个 货车 只 有 一 个 包裹 的 概率 
(d) 计算 RG 的 期 望 和 方差 


(e) 假设 二 2, 在 前 两 个 包 于 都 装 在 红 货 车 的 条 件 下 求 出 随机 变量 R 的 条 件 分 布 
列 、 期 望 和 方差 值 . 


2， 大 卫 在 每 次 小 测验 中 不 及 格 的 概率 为 1/4, 并 且 各 次 小 测验 的 结果 是 相互 独立 . 

(a) 计算 大 卫 在 6 次 小 测验 中 恰好 不 及 格 2 次 的 概率 . 

(b) 计算 大 卫 在 不 及 格 3 次 之 前 通过 的 平均 测验 数 . 

(ce) 计算 大 卫 恰 好 在 第 8 次 和 第 9 次 测验 时 发 生 第 2 次 和 第 3 次 不 及 格 的 概率 . 

(d) 计算 大 卫 在 连续 2 次 通过 测验 之 前 连续 2 次 不 及 格 的 概率 . 

3， 计 算 机 系统 执行 两 个 用 户 提交 的 任务 ， 时 间 被 划分 为 几 部 分 , 每 一 部 分 以 Pr = 1/6 
的 概率 空闲 ， 以 PB = 5/6 的 概率 忙碌 ， 在 忙碌 时 间 , 来 自用 户 1 或 用 户 2 的 任务 被 执行 
的 概率 分 别 为 PIs = 2/5 或 刀 e = 3/5, 我 们 假设 不 同时 间 段 的 事件 彼此 独立 . 

(a) 计算 在 第 4 个 时 间 段 第 一 次 执行 用 户 1 的 任务 概率 . 


(b) 在 前 10 个 时 间 段 中 有 5 个 空闲 的 条 件 下 , 计算 第 6 个 空闲 时 间 段 为 第 12 个 时 间 段 的 概 
率 ， 


(c) 计算 系统 在 执行 来 自用 户 1 第 5 个 任务 时 的 总 时 间 段 数 的 期 望 值 . 
(d) 计算 执行 来 自用 户 1 的 第 5 个 任务 时 , 计算 机 经 历 的 繁忙 时 间 段 的 期 望 数 . 


和 
[0 方差. 




























































































4.* 考虑 一 个 伯 努 利 过 程 ， 每 次 试验 成 功 概率 为 bp . 


(a) 将 第 次 成 功 之 前 失败 的 次 数 (通常 称 作 负 二 项 分 布 随机 变量 ) 与 一 个 服从 帕斯卡 
分 布 的 随机 变量 联系 起 来 , 并 求 出 它 的 分 布 列 . 


(b) 求 出 第 次 成 功 之 前 失败 次 数 的 期 望 和 方差 . 
(c) 写 出 第 7 次 失败 发 生 在 第 x 次 成 功 之 前 的 概率 的 表达 式 . 
解 (a) 设 了 表示 第 次 成 功 之 前 试验 的 次 数 ， 它 是 阶 由 斯 卡 分 布 随机 变量 , 再 


设 了 表示 第 r 次 成 功 之 前 失败 的 次 数 ， 所 以 有 XX =Y 一 r"， 因 此 , Px(K) = py (Kk 十 7) 
并 且 











玉 十 了 一 1 Fr / 天 
PXI 人 大 ) = 1 p {ll—p) k= 0,1,.……: 
7 一 


(b) 使 用 上 一 部 分 的 记号 ， 我 们 有 





EIX] = E[Y] —r = S 


(1 一 P)7 
PP 


var(X) = var(lY) = 


(ce) 再 次 设 表示 第 次 成 功 之 前 失败 的 次 数 , 在 第 x 次 成 功 之 前 发 生 第 7 次 失败 


30 | 20 大 二 7r 一 1 上 
Zr -> rl] ) (1—p), i=1,2,.… 
ee 


少 为 了 当 且 仅 当 成 功 的 次 数 少 于 r .但 是 , 这 也 等 价 于 在 第 r 次 成 功 之 前 发 生 第 7 
次 失败 ， 这 样 , 想 要 的 概率 也 就 是 在 前 了 +i 一 1 次 试验 中 成 功 的 次 数 少 于 r 的 概率 ， 
它 是 














7 一 1 

二 2 一 大， Fr 十 i 一 1 一 大 4 

) (1 —p) Ci 

3 
5.* 伯 努 利 过程 中 的 随机 插入 ， 你 的 表 弟 很 久 以 前 就 开始 在 玩 一 个 视频 游戏 ， 假 设 他 
赢 每 一 局 的 概率 是 p , 并且 独立 于 其 他 游戏 的 结果 .午夜 时 , 你 进入 他 的 房间 并 且 发 现 
他 输 掉 了 当前 的 游戏 . 试 计 算 他 最 近 一 次 赢 和 他 未 来 将 要 第 一 次 赢 之 间 输 的 次 数 的 分 布 
列 . 


解 ” 设 t 表示 当 你 进入 房间 时 所 玩 游戏 的 序号 , W 表示 他 赢 的 最 近 一 盘 游 戏 的 序号 ， 广 
表示 即将 赢 的 游戏 序号 , 则 随机 变量 X = N -上 服从 参数 为 p 几何 分 布 ， 由 于 游戏 




















的 对 称 性 和 独立 性 , 随机 变量 Y = t 一 MM 也 同样 服从 参数 为 p 的 几何 分 布 ， 在 他 最 近 
次 赢 之 间 输 掉 游 戏 的 次 数 即 为 和 W 之 间 游 戏 个 数 ， 上 述 次 
L 











L=N—-M-1=X+Y-1. 
这 样 , 工 十 1 就 有 2 阶 帕斯卡 分 布 ， 并 且 





天 一 1] ” | 
p(L+1=A)=( 1 jza- p= (k—1)p (1—p) 2 k=2,3,.... 


因此 ， 
pri(i)j =P(L+1=i+1)=ip(l— pT!, i1=1,2,.… 


项 数 为 几何 随机 变量 的 独立 几何 随机 变量 之 和 . 设 Y= 六 二 入 2 十 … 十 入 wn, 其 中 
随机 变量 Xi 服从 参数 为 p 的 几何 分 布 ,并且 入 服从 参数 为 9 的 几何 分 布 . 假设 随机 
变量 入 ,六 1, 六 2,… 相互 独立 . 在 不 利用 和 矩 母 函数 的 前 提 下 证 明 , 了 服从 参数 为 pg 的 几 
何 分 布 . 着 示 利用 分 殊 的 伯 努 利 过 程 解释 题 中 所 浊 步 及 的 随机 变量 . 


解 ” 我 们 在 第 4 章 中 使 用 和 矩 母 函数 得 到 了 这 个 结论 , 但 是 我 们 在 这 里 要 进行 更 加 直观 的 
E 导 . 我 们 分 别 将 随机 变量 和 VW 作 如 下 解释 , 我 们 将 时 刻 六 1, 六 1 十 六 2,… 视 作 参 

数 为 p 的 伯 努 利 过 程 中 的 到 达 时 刻 , 每 一 个 到 达 以 概率 1-g Ce 9 接受 .我 
们 将 N 解释 为 第 一 次 接受 之 前 到 达 的 个 数 , 被 接受 的 到 达 过 程 是 通过 分 裂 伯 努 利 过 程 
而 获得 的 ， 因此 它 本 身 就 是 参数 为 pg 的 伯 努 利 过 程 . 注意 到 随机 变量 

本 XIA 二 … 二 AN 就 是 出 现 到 达 被 第 一 次 接受 的 时 间 ， 因 此 是 参数 为 pg 的 几何 


7.* 来 自 伯 努 利 过 程 的 均匀 分 布 随机 变量 的 比特 数 ， 用 AN 是 取 值 于 {0,1} 的 
二 值 随机 变量 序列 ， 设 了 表示 取 值 于 10, 1] 的 连 乡 过 随机 变量 . 我 们 假设 了 为 具有 二 进 制 
表示 为 0AIA2A3 的 实数 , 因此 将 和 了 联系 起 来 ， 更 加 具体 的 表达 式 是 


Y= Vex. 


k=1 



































(a) 假设 Xi 来 自 参数 为 记 1/2 的 伯 努 利 过 程 ， 证 明 了 服从 均匀 分 布 . 提示 : 考虑 事 
件 (i 一 DD/2 <Y <i/2” 的 概率 ， 其 中 i 都 是 正 整 数 . 


(b) 假设 了 是 均匀 分 布 的 , 证 明 Xi 来 自 参 数 为 P= 1/2 的 伯 努 利 过 程 . 
解 (a) 我 们 有 








PlY € [0,1/2|)= P(X1 =0)}= 


全 


= PI(lY € [1/2,1)). 


进而 ， 





1 
P(Y € [0,1/4) =P(X1 =0,X2=0)=7: 





类 似 的 ， 我 们 考虑 形 如 [ 诺 一 Di2 ] 的 区 间 , 其 中 i,k 都 是 正 整数 并 且 i< 2， 要 
想 了 落 在 这 个 区 间 内 , 我 们 需要 六 1, 六 2,… ,六 取 一 些 特殊 的 值 (也 就 是 7 -1 的 二 进 
制 展开 的 小 数 点 后 的 & 个 数 ), 这 样 





P((i— 1)/2* <Y <i/2*)= 





同时 注意 到 : 对 于 [0, 1] 中 任意 的 数 y ， 我 们 有 PlY = 切 = 0, 这 是 因为 事件 位 = 对 
只 有 当 无 穷 多 个 Xi 取 特 殊 值 时 才 可 能 发 生 , 是 一 个 零 概 率 事件 .因此 ， 了 的 分 布 函数 
是 连续 型 的 并 且 、 满 足 





1 
<1/2 1)1 王 一 
PlY < 2) Dk- 


既然 每 一 个 [0, 1] 中 的 > 都 可 以 用 形 如 i/2” 的 数 近 似 副 近 , 对 于 任意 的 YE [0.1 我 们 
有 P(Y 大凡 = 多 这 就 证 明了 三 服从 均匀 分 布 . 


(b) 正如 (a) 部 分 ,我 们 发 现 AAA 的 每 一 种 可 能 的 0-1 形 式 都 对 应 着 了 的 一 
个 形 如 此 一 D/2 22 ] 的 特定 区 间 , 这 些 区 间 具 有 相同 的 长 度 , 由 于 上 是 均匀 分 布 进而 
具有 相同 的 概率 1/2 . 对 于 X1,X2,… ,Xk 来 说 , 这 个 特定 的 联合 分 布 就 相当 于 参数 为 
P= 1/2 伯 努 利 独立 随机 变量 . 


6.2 节 ” 泊 松 过 程 

8， 早 上 8 点 到 9 点 这 段 繁忙 时 间 里 , 交通 事故 的 发 生 数 服从 一 个 强度 为 每 小 时 5 次 的 泊 松 
分 布 , 在 早上 9 点 到 11 点 之 间 ， 交 通 事 故 的 发 生 数 服从 一 个 独立 的 频率 为 每 小 时 3 次 的 泊 
松 分 布 . 试 求 ， 早上 8 点 到 11 点 之 间 发 生 事 故 总 次 数 的 分 布 函 数 . 

9， 一 个 体育 馆 有 5 个 网 球场 . 假设 每 对 打球 者 来 到 体育 馆 打 网 球 的 时 间 服从 均值 为 40 分 
钟 的 指数 分 布 . 现 有 一 对 打球 者 来 到 体育 馆 ， 发 现 所 有 的 场地 都 有 人 在 打球 , 且 前 面 有 k 
对 人 正在 等 待 ， 问 他 们 等 待 的 期 望 时 间 是 多 少 ? 

10， 一 个 渔夫 在 钓鱼 , 他 钓 到 鱼 的 规律 服从 强度 为 A = 0.6 条 /小 时 的 泊 松 过 程 . 钓鱼 时 
间 至 少 为 两 小 时 . 如 果 他 到 两 小 时 的 时 候 至 少 已 经 钓 到 一 条 鱼 ， 就 退出 ， 否 则 , 他 将 一 
直 钓 下 去 直到 钓 到 一 条 为 止 

(a) 求 他 的 钓鱼 时 间 超过 两 小 时 (不 含 ) 的 概率 . 

(b) 求 他 钓鱼 的 总 时 间 在 2*5 小 时 之 间 的 概率 . 

(c) 求 他 至 少 钓 到 两 条 鱼 的 概率 . 

(d) 求 他 钓鱼 条 数 的 期 望 


(e) 求 他 在 已 经 钓鱼 四 小 时 条 件 下 的 总 钓鱼 时 间 的 期 望 . 


















































11， 顾 客 离开 书店 服从 一 个 强度 为 A 人 /小 时 的 柏 松 过 程 , 每 一 个 顾客 买书 的 概率 为 p 
， 并 且 独 立 于 其 他 顾客 . 


(a) 求 直 到 卖 出 第 一 本 书 所 用 时 间 的 分 布 . 

(pb) 求 在 一 个 特定 的 小 时 里 ， 没 有 书 卖 出 的 概率 . 

(c) 求 在 一 个 特定 的 小 时 里 购书 的 顾客 数 的 期 望 . 

12， 一 个 比萨 店 供应 好 种 不 同类 型 的 比萨 饼 , 而 且 在 给 定 的 时 间 区 间 内 ， 有 名 顾 
客 , 其 中 8 服从 均值 为 和 的 泊 松 分 布 ， 每 名 顾客 只 买 一 个 比萨 饼 , 并 且 买 哪 种 类 型 的 
比萨 饼 是 随机 的 ， 而 且 与 其 他 顾客 的 选择 是 独立 的 . 求 卖 出 的 比萨 饼 种 类 数 的 平均 值 . 


13. 发 报 机 4 和 8B 分 别 以 强度 Ai 和 As 的 泊 松 过 程 的 形式 向 一 个 单独 的 接收 器 独 
立地 发 送 消 息 , 所 有 的 信息 都 很 简短 ， 因 此 我 们 可 以 假设 它们 只 占据 了 单个 的 时 间 点 . 
每 个 信息 中 的 字数 矿 的 分 布 列 为 



































je By = 

8 和， 
pw (w) = 

118, 

0， ”其 他 ， 





这 个 分 布 与 来 自 哪个 过 程 无 关 , 同时 各 个 信息 的 字数 矿 之 间 也 是 相互 独立 的 . 
(a) 求 在 持续 时 间 为 t 的 间隔 里 总 共 收 到 9 条 信息 的 概率 . 
(b) 设 w 表示 在 持续 时 间 为 + 的 间隔 里 接收 到 的 总 字数 , 求 w 的 期 望 . 


(c) 求 从 时 刻 0 开始 , 直到 接收 到 8 条 来 自发 报 机 4 的 字数 为 3 的 信息 所 需 时 间 的 概 
率 密 度 函数 

(d) 求 即将 接受 的 12 条 信息 中 恰好 有 8 条 来 自发 报 机 4 的 概率 

14， 从 时 刻 本 0 开始 ， 我 们 一 次 使 用 一 个 灯泡 来 为 房屋 照明 , 灯泡 在 坏 了 之 后 会 立刻 
进行 更 换 . 每 一 个 新 灯泡 将 会 从 4 类 型 和 8 类 型 中 等 概率 独立 地 选择 . 对 于 任何 类 型 
的 任何 二 个 特定 的 灯泡 ， 其 寿命 了 部 是 随机 变量 , 独立 了 其 他 灯泡 的 寿命 县 有 着 如 下 
K 率 密度 函数 : 




















对 4 类 型 灯泡 : fx(z)= 


38 以 洲 间 法 习 
对 如 类 型 灯泡 : x(x) = 


(a) 求 灯 泡 直到 第 一 次 用 坏 时 间 的 期 望 . 

(b) 求 在 时 刻 z 之 前 没有 灯泡 用 坏 的 概率 . 

(c) 在 时 刻 t 之 前 没有 灯泡 用 坏 的 条 件 下 , 求 第 一 次 使 用 的 是 4 类 型 灯泡 的 概率 . 
(d) 求 直 到 第 一 个 灯泡 用 坏 时 间 的 方差 . 

(e) 求 第 12 个 灯泡 用 坏 恰好 是 第 4 个 4 类 型 灯泡 用 坏 的 概率 . 

(f) 求 直 到 第 12 个 灯泡 用 坏 , 总 共 恰 有 4 个 4 类 型 灯泡 用 坏 的 概率 . 

(g) 求 直 到 第 12 个 灯泡 用 坏 的 所 用 时 间 的 概率 密度 函数 或 者 与 之 相关 的 矩 母 函 数 . 
(h) 求 前 两 个 8 类 型 灯泡 的 总 照明 时 间 长 于 前 两 个 4 类 型 灯泡 的 总 寿命 的 概率 . 


(i) 假设 此 过 程 在 12 个 灯泡 用 坏 时 立刻 停止 , 试 求 整个 过 程 中 类 型 照明 时 间 总 长 度 
的 均值 和 方差 . 


(j) 在 时 刻 t 之 前 没有 灯泡 用 坏 的 条 件 下 , 试 求 直 到 第 一 个 灯泡 用 坏 所 需 时 间 的 期 望 . 


15. 一 个 服务 站 处 理 两 种 类 型 的 任务 4 和 8 (多 个 任务 可 以 在 服务 站 同时 处 理 ), 两 种 
类 型 任务 的 到 达 分 别 服从 参数 为 每 分 钟 和 4 =3 和 XB =4 的 独立 泊 松 过 程 . 4 类 种 任 
务 在 服务 站 停留 恰好 一 分 钟 , 而 每 一 个 8 类 任务 在 服务 站 停留 的 时 间 是 一 个 取 整 数值 
的 随机 变量 , 其 分 布 为 几何 分 布 ， 均 值 为 2， 并 且 各 任务 的 执行 时 间 相 互 独立 . 假定 服务 
站 很 久 以 前 已 开业 . 


(a) 对 于 一 个 给 定 的 3 分 钟 区 间 , 求 到 达 服 务 站 的 总 任务 数 的 均值 、 方 差 和 分 布 列 . 


(b) 我 们 被 告知 在 一 个 10 分 钟 的 区 间 里 恰好 到 达 了 10 个 新 的 任务 , 试 求 其 中 恰好 有 3 个 
是 4 类 任务 的 概率 . 


(c) 己 知 在 时 刻 0 服 务 站 是 空间 的 ， 即 没有 任务 . 试 求 第 一 个 4 类 任务 到 达 之 前 8 类 
任务 到 达 个 数 的 分 布 列 . 
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(d) 在 时 刻 去 0 恰好 有 2 个 4 类 任务 在 服务 站 执行 , 求 出 在 时 刻 0 之 前 最 后 一 个 4 类 
任务 到 达 时 间 的 概率 密度 函数 . 


0 恰好 有 一 个 8 类 任务 在 服务 站 , 试 求 直到 这 个 8 类 任务 完成 所 需 时 间 
分 布 . 


16， 每 天 早上 你 开车 出 门 时 , 更 愿意 在 几 个 路 口 直接 掉头 行驶 而 不 愿 绕道 ， 但 是 很 不 六 
的 是 , 在 你 居住 的 附近 地 区 掉头 是 违规 的 , 并 且 警 车 会 以 强度 为 A 的 泊 松 过 程 出 现 . 假 
设 你 决定 一 旦 在 7 个 时 间 单 元 内 路 上 没有 出 现 警 车 , 你 就 会 掉头 一 次 ， 且 设 在 你 掉头 
之 前 看 到 了 W 辆 警车 . 


(a) 求 EIN] 
(b) 给 定 入 三 试 求 第 六 1 辆 警车 和 第 2 辆 警车 之 间 的 间隔 时 间 的 条 件 期 望 . 
(c) 试 求 在 掉头 之 前 等 待 时 间 的 期 望 ， 提示: 对 VW 取 条 件 化 . 


17， 和 圣迭戈 动物 园 的 一 只 袋 熊 每 天 从 洞穴 走 到 食物 先进 食 , 再 走 回去 休息 ， 并 且 一 直 重 
复 下 去 ， 从 洞穴 走 到 食物 盘 的 时 间 ( 也 是 从 食物 盘 走 到 洞穴 的 时 间 ) 是 20 秒 , 进食 时 间 
和 休息 时 间 都 服从 均值 为 30 秒 的 指数 分 布 . 这 只 袋 能 在 来 回 进食 的 路 上 将 会 以 1/3 的 概 
率 瞬 间 站 立 一 会 儿 (时 间 很 短 可 以 忽略 ), 至 于 在 哪个 时 刻 站 立 则 是 完全 随机 的 . 袋 驴 的 
行为 在 各 个 阶段 之 间 是 相互 独立 的 . 一 个 摄影 师 在 随机 时 刻 到 达 并 且 可 以 在 袋 熊 站立 的 
时 候 立 即 拍 摄 照片 , 试 求 : 摄影 师 完成 拍摄 需要 等 待 的 时 间 长 度 的 期 望 . 


18.* 考虑 一 个 泊 松 过 程 , 已 知 在 给 定 的 时 间 间 隔 0, 内 只 发 生 一 个 单个 到 达 , 试 证 : 
到 达 时 间 的 概率 密度 函数 在 区 间 上 ,如 上 是 均匀 分 布 的 . 

证 明 考虑 一 个 区 间 色相 c 10, 刀 其 长 度 为 1=b 一 a, 设 7 表示 第 一 次 到 达 的 时 刻 ，4 
表示 在 |0,4 中 单个 到 达 发 生 的 事件 , 我 们 有 


pai pel a, 


其 中 分 子 等 于 概率 已 d JP 一 水 即 泊 松 过 程 在 长 度 为 7 的 区 间 le, 可 内 恰好 发 生 一 
次 到 达 的 概率 乘 以 在 总 长 度 为 +t 一/ 的 集合 0,0) J 中 有 0 次 到 达 的 概率 这样， 
P(1,D)P(O0,t—0D) (Ne 6 WY 1 


P(T éla,bllA) = 一 一 一 一 一 = 一 一 一 一 一 一 
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这 就 证 明了 7 是 服从 均匀 分 布 的 . 


19.* (a) 设 XI 和 X2 是 相互 独立 的 参数 为 入 和 和 2 指数 随机 变量 , 求 max{X1, 六 2} 
的 期 望 . 


(b) 设 了 服从 参数 为 Ai 的 指数 分 布 , 2 服从 参数 为 2 的 2 阶 埃 尔 朗 分 布 ,假设 了 和 
2 相互 独立 ， 求 max{y 2 上} 的 期 望 . 














解 ”一 种 直接 但 是 繁琐 的 方法 是 首先 算得 感 兴趣 的 随机 变量 的 概率 密度 函数 , 然后 计算 
职 分 求 得 它 的 期 望 值 ， 然 而 更 简单 的 方法 则 可 以 通过 将 感 兴趣 的 随机 变量 根据 洪 在 的 
泊 松 过 程 进行 解释 而 获得 . 


(a) 考虑 两 个 独立 的 强度 分 别 为 入 和 2 的 泊 松 过 程 , 我 们 将 XX 和 X2 分 别 解释 为 第 
一 个 过 程 和 第 二 个 过 程 的 首次 到 达 时 间 ， 设 工 = min{X1, XX2} 表示 两 个 过 程 合并 以 后 
的 首次 到 达 时 间 , S = max{XX1, 六 一 了 表示 直到 两 个 过 程 都 出 现 到 达 的 增加 时 间 . 因为 
合并 的 过 程 是 强度 为 和 1 二 和 2 的 泊 松 过 程 , 我 们 有 


1 
ElT| = 一 一 一 . 
二 





对 于 9 有 两 种 情况 需要 考虑 : 


(i) 第 一 次 到 达 来 自 于 第 一 个 过 程 , 这 种 情况 出 现 的 概率 是 AL/(A + 入) 此 时 我 们 仍 需 
等 待 第 二 个 过 程 的 一 个 到 达 , 平均 来 说 需要 时 间 1/ 


(ii) 第 一 次 到 达 来 自 于 第 二 个 过 程 , 这 种 情况 出 现 的 概率 是 Na/(A + 六 ) 此 时 我 们 仍 
需 等 待 第 一 个 过 程 的 一 个 到 达 , 平均 来 说 需要 时 间 1/ 入 ， 综 上 ， 我 们 得 到 











F 1 入 1 入 | 
Elmax{Xi, X = 一 -+ 一 一 + 一 一 -一 


(b) 考虑 两 个 独立 的 参数 分 别 为 A 和 六 的 泊 松 过 程 , 我 们 将 了 和 2 分 别 解释 为 第 
一 个 过 程 的 首次 到 达 时 间 和 第 二 个 过 程 的 第 二 次 到 达 时 间 ， 设 7 表示 两 个 过 程 合 并 以 
后 的 首次 到 达 时间 . 因为 合并 过 程 是 强度 为 和 1 十 和 2 的 泊 松 过 程 , 我们 有 

ET] = 1/( 和 1 + 和 )， 这 里 有 两 种 情况 需要 考虑 . 


(i) 在 时 刻 7 的 到 达 来 自 第 一 个 过 程 , 这 种 情况 出 现 的 概率 是 AtAi + %) 此 时 我 们 
仍 需 等 竺 党 二 个 过 程 的 两 个 到 这， 这 个 增加 时 间 服 从 参数 为 2 的 2 阶 埃 尔 朗 分布, 期 望 
时 间 为 4/ 人 2 


(ii) 在 时 刻 7 的 到 达 来 自 第 二 个 过 程 , 这 种 情况 出 现 的 概率 是 和 /和 1 二 各), 此 时 我 们 
仍 需 等 待 的 增加 时 间 5S 是 直到 两 个 过 程 各 出 现 一 个 到 达 所 需 的 时 间 , 这 是 两 个 独立 指 
数 分 布 随机 变量 的 最 大 值 . 由 (a) 部 分 得 到 的 结果 , 我 们 有 














综 上 ， 我 们 得 到 


Elmax{Y, Z} = rm ee 下 生计 大 . E[S], 


其 中 EIS] 的 值 由 前 述 公 式 给 出 . 





20.* 设 二 表示 参数 为 A 的 泊 松 过 程 中 第 个 到 达 的 时 间 , 试 证 明 ， 对 所 有 的 y > 0 
都 有 
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最 后 一 个 等 式 成 立 是 因为 Ve /ml 这 一 项 是 参数 为 Vy 的 泊 松 分 布 的 随机 变量 取 
值 为 wm 的 概率 值 ， 因 此 其 和 必 为 1. 


一 个 更 为 直观 的 推导 过 程 如 下 ， 设 5 是 一 个 很 小 的 正 数 , 考虑 如 下 事件 : 
4k: 第 次 到 达 发 生 在 y 和 y+5 之 间 , 这 个 事件 发 生 的 概率 为 P(Ak) 客 f(y)5; 
4: 一 次 到 达 发 生 在 了 和 y+5 之 间 , 这 个 事件 发 生 的 概率 为 PL4) ~ 和 5; 
假设 5 被 取得 足够 小 以 至 于 在 一 个 长 度 为 5 的 区 间 内 发 生 两 次 或 更 多 次 到 达 的 概率 
可 以 被 忽略 . 通过 这 种 近似 ， 事 件 汪 , 如 ，… 不 相交 ， 它 们 的 并 集 是 4 ,因此 ， 
Dh) ; ~ P(A ) ~ P(A) ~ %, 
上 = 


所 需 结 论 只 要 将 两 边 的 5 消去 即 可 . 


21.* 考虑 两 个 参数 分 别 为 和 和 Xz 的 独立 泊 松 过 程 . 设 Ai 和 六 2l) 分 别 表示 第 一 
个 过 程 和 第 二 个 过 程 中 第 次 到 达 的 时 间 , 证 明 : 


Wi 十 mm 一 1 一 上 
守 赴 入 和 
P(Xi1(n) < Xo2(m)) = 》 ( 机 ) 人 1 ) G 一 ) 
he 1 TA 人 2 1 十 A2 


k=n 














解 ”考虑 合并 的 参数 为 Ai + 的 泊 松 过 程 , 每 一 次 当 合并 的 泊 松 过 程 中 出 现 一 个 到 达 
时 ， 它 来 自 第 一 个 过 程 (成 功 ) 的 概率 为 入 /( 和 + 入 )， 来 自 第 二 个 过 程 ( 失 败 ) 的 概率 为 











和 /AI 十 人) 考虑 n 二 mm 一 1 次 到 达 之 后 的 情况 ， 来 自 第 一 过 程 的 到 达 至 少 有 7 次 当 
且 仅 当 来 自 第 二 个 过 程 的 到 达 数 少 于 mw ， 这 种 情况 的 发 生 当 且 仅 当 第 n 次 成 功 发 生 
在 第 m 次 失败 之 前 . 这 样 ， 事 件 {X1(n) < X2(m)} 就 相当 于 在 前 n 十 m 一 1 次 试验 中 














至 少 成 功 n 次 这 个 事件 . 在 一 个 具有 确定 试验 次 数 的 试验 中 , 成 功 次 数 的 分 布 列 是 二 项 
分 布 列 ， 我 们 有 


n+m—1 re me | 入 天 n+m—1 一 上 
P(Xi(n) < Xolm)) = ( ( ( 一 ) 
2 大 A I 到 和 2 Al 加 加 和 2 











22.* 随机 数目 个 独立 伯 努 利 随机 变量 之 和 .， 设 NAX1A2 让 取 
非 负 整数 , 随机 变量 X; 服从 参数 为 p 的 伯 努 利 分 布 > N 二 0 时 ， 定 义 
Y = Xi 十 … 十 Xn 否则 定义 天 0 ”证明 


(a) 如 果 VW 是 参数 为 m 和 9 的 二 项 分 布 , 则 了 是 参数 为 m 和 pg 的 二 项 分 布 ; 
(b) 如 果 VW 是 参数 为 和 的 泊 松 分 布 , 则 了 是 参数 为 名 的 泊 松 分 布 . 


解 (a) 将 伯 努 利 过 程 X1, 六 2,…， 进行 分 裂 , 以 概率 g 接受 , 以 概率 1-g 放弃 . 分 裂 
产生 两 个 随机 过 程 , 第 一 个 随机 过 程 是 分 裂 中 接受 的 随机 过 程 , 第 二 个 随机 过 程 是 分 列 
中 放弃 的 随机 过 程 . 而 了 是 第 一 个 过 程 前 w 次 试验 成 功 的 次 数 . 因为 分 钨 过 程 是 伯 努 
利 的 , 参数 为 pg ， 所 以 了 是 参数 为 m 和 pg 的 二 项 分 布 . 


(b) 将 参数 为 A 的 泊 松 过 程 进行 分 裂 ， 以 概率 p 接收 , 以 概率 1-p 放弃 . 则 了 是 在 
单位 时 间 内 分 裂 过 程 到 达 的 次 数 . 了 具有 表达 式 Y= A++ 十 sw 其 中 W 是 原来 的 泊 
松 过 程 在 单位 时 间 内 到 达 的 个 数 , 由 于 每 一 个 到 达 要 分 列 ， 了 刚好 是 分 裂 过 程 在 单位 
en 因为 分 裂 过 程 是 泊 松 的 ， 参 数 为 PA， 所 以 六 是 参数 为 和 的 泊 松 
思 


23.*# 个 数 为 几何 随机 分 布 的 独立 指数 随机 变量 之 和 . 设 了 = 六 1 二 … 二 六 wy, 其 中 随机 
变量 服从 参数 为 和 的 指数 分 布 , 且 入 服从 参数 为 p ) 的 几何 分 布 ， 假设 随机 变量 

NA1A2 是 独立 的 , 在 不 使 用 算 母 函数 的 前 提 下 证 明 : 了 服从 参数 为 名 的 指数 分 
布 . 示 ， 根据 分 裂 的 泊 松 过 程 随机 变量 的 含义 来 证 明 . 


解 ”我 们 在 第 4 章 利用 矩 母 函数 的 方法 得 到 了 这 个 结论 ， 但 是 在 这 里 要 得 到 更 加 直观 的 
推导 . 分 别 将 随机 变量 X; 和 VW 作 如 下 解释 , 将 时 刻 AuA1+A2，… 视 作 参数 为 和 的 
泊 松 过 程 中 的 到 达 时 刻 现在 将 这 个 过 程 (我 们 称 为 原 过 程 ) 进行 分 裂 , 每 一 个 到 达 以 概 
率 1-p 拒绝 ， 以 概率 接受 , 将 接受 的 到 这 形成 分 裂 过 程 的 到 达 ,分裂 过 程 是 参数 为 
pA he 我 们 将 VW 解释 为 第 一 次 接受 时 原 过 程 到 达 的 个 数 , 注意 到 随机 变量 

Y= 二 六 十 十 … 二 六 vy 就 是 原 过 程 的 到 达 中 第 一 次 被 接受 的 时 间 , 这 个 时 间 也 是 分 裂 过 
程 的 第 一 次 到 达 时 间 ， 按 泊 松 过 程 的 定义 , 这 个 分 裂 过 程 的 第 一 次 到 达 时 间 的 分 布 是 
参数 为 PA 的 指数 分 布 . 


24. * 泊 松 过 程 在 指数 分 布 的 随机 区 间 内 的 到 达 个 数 . 考虑 一 个 参数 为 泊 松 过 程 和 
一 个 独立 的 参数 为 v 的 指数 分 布 随机 变量 7 ， 计 算 在 时 间 区 间 |0, 嫩 内 的 泊 松 过 程 


: 
































到 达 个 数 的 分 布 列 . 


解 ” 让 我 们 将 人 v 的 泊 松 过 程 第 一 次 到 达 的 时 间 , 并 且 将 
此 过 程 与 原始 过 程 合 并 .在 这 个 合并 的 过 程 中 , 每 一 个 到 达 来 自 原始 过 程 的 概率 为 

和 A/( 和 +v) 且 独 立 于 其 他 到 达 . 名 拓宽 们 将 合并 过 竹中 的 外 次 到 达 都 看 作 是 一 次 试验 ， 
将 来 自 新 过 程 的 到 达 都 视 作 一 次 成 功 的 话 ， 注 意 到 , 直到 第 一 次 成 功 的 到 达 数 (试验 
数 )K 是 几何 分 布 , 它 的 分 布 列 是 


也 入 3 
ey “二 2。 
PE (a (二 


而 第 一 次 成 功 之 前 来 自 原始 泊 松 过 程 的 到 达 数 Z 等 于 三]1 并 且 它 的 分 布 列 为 


(0) (1+1) = 入 1=0.1 
) = px{(l+1)= 三 和 = 
a PE 入 十 7 入 十 7 


25.* 无 限 服务 队列 ， 我 们 考虑 一 个 拥有 无 限 个 服务 者 的 排队 系统 , 在 此 系统 中 的 顾客 
以 强度 为 A 的 泊 松 过 程 到 达 . 第 7 个 顾客 在 系统 中 停留 一 段 随机 时 间 ， 记 为 Xi 我们 
假设 随机 变量 Xi 独立 同 分 布 ， 并 且 独 立 于 到 达 过 程 . 为 了 简单 起 见 , 我 们 还 假设 共 

以 给 定 的 概率 取 1,… ,nm 中 的 整数 值 . 试 计算 在 时 刻 上 时 系统 中 的 顾客 数 入 的 分 布 


列 . 
解 ” 我 们 将 那些 在 系统 中 停留 时 间 Xi 为 £ 的 顾客 记 为 “类 型 k ”顾客 . 可 以 将 整个 
到 达 过 程 看 作 是 ”个 子 泊 松 过 程 的 合并 , 第 £ 个 子 过 程 就 相应 于 “类 型 k ”顾客 的 
到 达 过 程 , 它 独立 于 其 他 过 程 且 频率 为 Mp: ， 其 中 pk =P(Xi = 各, 令 ME 表示 在 时 刻 
t 系统 中 的 “类 型 K ”顾客 数 ， 这 样 就 有 


Ni = ; NE 
k=1 






























































且 随 机 变量 M 是 独立 的 . 


0 Nr 的 分 布 列 .一 个 “类 型 刀 顾客 在 时 刻 t 在 系统 中 当 且 仅 当 那个 顾 

是 在 时 刻 t 一 及 和 时 刻 zt 之 间 到 达 的 因此 , M 具有 均值 为 APx 的 泊 松 分 布 , 由 于 
天 座机 之 和 人 人 磺 恰 愉 公分 布 ， 于 总 我 们 有 Nt 服从 参数 如 下 的 泊 松 分 布 
列 ， 参 数 是 











E[N] = 入 》 kpe = AE[X]. 
k=1 


26.* 分 裂 的 泊 松 过 程 的 独立 性 ， 考 虑 一 个 泊 松 过 程 , 以 独立 的 成 功 概率 为 p 的 投 硬 
币 的 方式 ， 将 之 分 裂 为 两 个 过 程 . 在 例 6. 13 中 ， 我 们 得 出 了 每 一 个 子 过 程 都 是 泊 松 过 
程 的 结论 ， 现 在 证 明 这 两 个 子 过 程 是 独立 的 . 


解 ” 让 我 们 从 两 个 独立 的 强度 分 别 为 PA 和 (1 一 怒 和 的 泊 松 过 程 PL 和 Pz 开始 , 将 两 
过 程 合 并 得 到 一 个 强度 为 A 的 泊 松 过 程 P, 然后 按照 如 下 规则 将 过 程 P 分 型 为 两 个 











子 过 程 1 和 7?2， 一 个 到 达 注 册 为 子 过 程 (或 P2 ), 当 且 仅 当 该 到 达 是 来 自 子 过 程 
Pi( 或 Pa ). 很 明显 ,新 的 两 个 子 过 程 Pi 和 Ps 是 独立 的 , 因为 它们 就 等 同 于 原始 的 子 
过 程 Pl 和 Ps . 然而 , 产生 子 过 程 1 和 Ps 的 分 裂 机 制 与 题目 中 的 陈述 看 上 去 并 不 

一 致 .我们 现在 就 要 证 明 这 个 新 的 分 裂 机 制 在 统计 意义 上 是 等 同 于 题目 中 的 陈述 的 . 进 
而 将 会 得 到 , 按 题目 中 的 陈述 构造 的 子 过 程 与 上 述 子 过 程 站 和 ?2 具有 相同 的 统计 性 
质 , 所 以 是 独立 的 . 


现在 我 们 考虑 上 述 分 裂 机 制 . 假设 过 程 P 在 时 刻 zt 出 现 一 个 到 达 , 这 将 或 者 来 自 子 过 
程 站 (以 概率 p )， 或 者 来 自 于 子 过 程 总 (以 概率 1-p ). 因此 这 个 过 程 的 到 达 注 
册 到 子 过 程 Pi 和 P3 的 概率 分 别 为 p 和 1-p , 与 题目 中 描述 的 分 裂 过 程 一 致 . 现在 
考虑 过 程 P 中 的 第 k 个 到 达 , 并 且 令 Lk 表示 这 个 到 达 来 自 子 过 程 请 这 个 事件 ,这 
与 第 k 个 到 达 注册 到 子 过 程 六 这 个 事件 是 完全 一 样 的 . 就 像 在 例 6. 14 中 解释 的 ， 事 
件 Lk 是 独立 的 . 这 样 ， 对 于 不 同 的 到 达 , 它们 注册 到 子 过程 了 ?1 和 Ps 也 是 独立 的 . 这 
说 明 将 P 分 裂 成 六 和 Ps 的 统计 机 制 与 题目 中 所 描述 的 分 裂 机 制 是 一 样 的 . 题目 中 
所 分 裂 的 两 个 过 程 与 ?1 和 及 的 统计 性 质 是 一 样 的 . 由 于 1 和 有 是 相互 独立 的 ， 
由 题目 中 分 裂 得 到 的 两 个 子 过 程 也 是 相互 独立 的 . 


27.* 在 埃 尔 朗 到 达 过 程 中 的 随机 插入 ， 考 虑 一 个 到 达 过 程 , 其 中 到 达 间 隔 时 间 是 独立 
的 均值 为 2^ 的 2 阶 埃 尔 朗 随 机 变量 , 假设 过 程 已 经 进行 了 很 长 一 段 时 间 . 一 个 外 在 观 
测 者 于 时 刻 上 到 达 , 求 包含 上 的 到 达 间 隔 区 间 长 度 的 概率 密度 函数 . 


解 ”我 们 将 题目 中 所 说 的 埃 尔 朗 到 达 过 程 视 作 强度 为 和 的 泊 松 过 程 的 一 部 分 特别 的 ， 
泊 松 过 程 每 出 现 两 次 到 达 则 埃 尔 朗 过 程 出 现 一 次 到 达 ， 更 具体 地 , 我 们 可 以 说 埃 尔 朗 过 
程 的 到 达 相 当 于 泊 松 过 程 中 的 偶数 次 到 达 . 设 东 表示 泊 松 过 程 中 第 K 次 到 达 的 时 间 . 


取 满 足 YK t<Yx+i 的 下 ,通过 文中 对 泊 松 过 程 的 随机 插入 的 讨论 , 我 们 知道 

xx 一 YEK 服从 2 阶 埃 尔 朗 分 布 , 而 这 里 考虑 的 埃 尔 朗 过 程 的 到 达 间 隔 区 间 根 据 K 的 偶 
奇 分 别 具 有 形式 [Yk, Yk+2] 或 者 [Yk-1,Yk+1l 在 第 一 种 情况 中 , 埃 尔 朗 过 程 的 到 达 间 隔 
时 间 具 有 形式 (Yk+1 一 YK) 十 (YK+2 一 YK+41). 这 里 YK+2 一 YK+l 服从 参数 为 和 的 指数 分 
布 , 且 独 立 于 Yk 一 Yx. 事实 上 ， 一 个 观测 者 在 时 刻 上 到 达 并 发 现 不 是 偶数 , 则 必须 
首先 等 待 到 下 一 个 泊 松 到 达 时 刻 YK+l. 从 那个 时 刻 起 ， 泊 松 过 程 重新 开始 , 所 以 到 下 一 
个 泊 松 到 达 所 需 时 间 Yk+2 一 Yk+1 是 独立 于 过 去 的 (也 就 独立 于 Yk 一 YK) ,并且 服 从 
参数 为 和 的 指数 分 布 ， 这 就 说 明 ， 在 丰 是 偶数 的 条 件 下 , 埃 尔 朗 过 程 的 到 达 间 隔 时 间 
区 间 长 度 YK+2 一 YK+1 是 一 个 3 阶 埃 尔 朗 分 布 ( 因 为 它 是 一 个 指数 随机 变量 和 2 阶 埃 尔 朗 
随机 变量 之 和 ). 同 理 可 得 ,在 下 是 奇数 的 条 件 下 , 埃 尔 朗 过 程 的 到 达 间 隔 时 间 区 间 长 度 
Yk+1 一 YK-1 的 条 件 概率 密度 函数 是 一 样 的 . 因为 对 于 每 一 个 条 件 , 包 含 时 刻 zt 的 到 达 
间隔 区 间 长 度 的 条 件 概率 密度 函数 都 是 3 阶 埃 尔 半分 布 , 这 样 ， 歼 盖 上 的 相 邻 的 到 达 区 
间 的 长 度 的 无 条 件 分 布 也 是 3 阶 埃 尔 朗 分 布 . 































































































第 7 章 马尔 可 夫 链 


第 6 章 所 讨论 的 伯 努 利 过 程 和 泊 松 过 程 是 无 记忆 性 的 , 也 就 是 未 来 的 状态 不 依赖 于 过 去 
的 状态 : 新 的 “成 功 ”或 “到 达 ” 不 依赖 于 该 过 程 过 去 的 历史 . 在 本 章 中 ， 我 们 将 考 
虑 未 来 会 依赖 于 过 去 的 过 程 并 且 能 够 在 某 种 程度 上 通过 过 去 发 生 的 情况 预测 未 来 . 


我 们 强调 的 模型 里 ， 过 去 对 未 来 的 影响 归结 为 对 状态 的 影响 , 它 的 概率 分 布 随时 间 变 
化 .进一步 地 ， 我 们 讨论 的 模型 中 ， 假 设 变 量 取 值 的 状态 只 取 有 限 个 值 ， 我们 将 分 析 
状态 值 序列 的 概率 性 质 . 


本 章 中 介绍 的 模型 的 应 用 范围 是 很 广 的 ， 它 包含 了 几乎 全 部 的 动力 系统 . 该 系统 的 状态 
随时 间 变 化 ， 具有 不 确定 性 . 这 种 系统 在 很 多 领域 都 有 应 用 , 例如 ， 通 信 、 自 动 控 制 、 
信息 传输 、 制 造 业 、 经 济 以 及 运筹 学 . 



























































pA 


7.1 离散 时 间 的 马尔 可 夫 链 


我 们 首先 考虑 离散 时 间 的 马尔 可 夫 链 , 其 中 状态 在 确定 的 离散 时 间 点 上 发 生变 化 ， 由 
于 时 间 已 经 离散 化 , 通常 使 用 变量 来 表示 时 刻 ， 在 任意 时 刻 n ， 用 Xn 表示 链 的 状 
态 , 并 且 假定 所 有 可 能 状态 组 成 有 限 集合 S， 称 该 集合 为 状态 空间 ， 不 失 一 般 性 , 除 
非 另 有 陈述 ， 我 们 用 S = {1,… ,m} 表示 这 个 状态 空间 , 其 中 也 为 对 一 个 正 整数 ， 马 
尔 可 夫 链 由 转移 概率 玉 所 描述 : 即 当 状态 是 7 时 , 下 一 个 状态 等 于 J 的 概率 是 Pi. 
数学 上 表示 为 























Pij [一 P(Xni4i = j|Xn 一 1). 1,7 E 售 . 





马尔 可 夫 链 的 核心 假设 是 只 要 时 刻 的 状态 为 二 不论 过 去 发 生 了 什么 , 也 不 论 链 是 如 
何 到 达 状 态 7 的 ， 下 一 个 时 刻 转 移 到 状态 J 的 概率 就 一 定 是 转移 概率 Pj.。 数学 上 ， 
马尔 可 夫 链 的 特征 称 为 马尔 可 夫 性 质 ， 即 满足 ， 对 于 任意 的 时 间 对 任意 的 状态 

i,j ES， 以 及 任意 之 前 可 能 的 状态 序列 i0,… ,in-1 ， 均 有 


P(Xn+1 = 了 |Xn 一 ?， Xn_1 一 in—1) So ,六 0 = 20) 一 P(Xn+1 j|Xn =1)= 


Pij. 
所 以 ， 下 一 个 状态 An+l 的 概率 分 布 只 依赖 于 前 一 个 状态 Xn. 
转移 概率 妃 一 定 是 非 负 的 ， 且 其 和 为 1， 即 


各” ”对 所 有 的 7 成 立 . 


通常 pa 可 取 正 值 , 这 样 下 一 个 状态 有 可 能 和 当前 状态 一 样 。 就算 状态 不 发 生变 化 , 我 
们 也 认为 状态 发 生 了 一 次 特殊 的 转移 (“自身 转移 ”). 


马尔 可 夫 模 型 的 性 质 

。 一 个 马尔 可 夫 链 模型 由 以 下 特征 确定 : 
(a) 状态 集合 S = {1,… ,mm} 
(b) 可 能 发 生 状 态 转移 (i,7) 的 集合 ， 即 由 所 有 请 >0 的 (i,j) 组 成 ， 
(c) Pi 的 取 值 ( 取 正 值 ). 

。 由 该 模型 描述 的 马尔 可 夫 链 是 一 个 随机 变量 序列 0, 六 1, 六 2,…， 它 们 取 值 于 
S， 并 且 满 足 : 对 于 任意 的 时 间 2 ， 所 有 状态 ji&S, 以 及 所 有 之 前 可 能 的 
状态 序列 i0,… ,in-1， 均 有 


P(A = 了 An 一 人 XI0 一 10) = Pij: 


























马尔 可 夫 链 可 以 由 转移 概率 矩阵 所 刻画 , 它 是 一 个 简单 的 二 元 矩阵 ， 其 第 7 行 第 /7 了 列 
的 元 素 为 Pi: 





Pll Pl2 :::. Plm 
pal pz ... Po2m 


Pml Pm2 ::. Pmm 


同时 ， 也 可 以 直观 地 用 转移 概率 图 表示 马尔 可 夫 链 , 图 中 用 节点 (node) 表示 状态 , 连接 
节点 的 (有 向 ) 弧 线 arc) 表示 可 能 发 生 的 转移 .将 束 的 数值 标记 在 相应 的 弧 线 旁边 , 这 
样 做 可 使 得 整个 模型 更 加 直观 ， 模 型 的 主要 性 质变 得 显而易见 . 


例 7.1 爱丽 丝 上 一 门 概率 课程 ， 每 周 她 可 能 进步 ， 也 可 能 落后 . 如 果 在 给 定 的 一 周 里 
她 进步 了 ， 那 么 她 下 一 周 进步 (或 落后 ) 的 概率 是 0. 8 (或 0. 2) ; 相应 地 ， 如 果 在 给 定 的 
一 周 里 她 落后 了 , 那么 她 下 一 周 进步 (或 落后 ) 的 概率 是 0.6 (或 0. 4) .我们 假设 这 些 概 
率 都 不 依赖 于 她 之 前 的 每 周 是 否 进步 或 落后 , 所 以 该 问题 就 是 一 个 典型 的 马尔 可 夫 链 问 
题 (未 来 的 状态 依赖 过 去 的 方式 是 只 依赖 于 当前 状态 来 体现 ). 


我 们 令 状 态 1 和 状态 2 分 别 表示 进步 和 落后 ， 那 么 转移 概率 为 

















P11 = 0.8. p12 一 一 [2 了 21 一 0.6. p22 — 0.4. 
转移 概率 矩阵 是 
0.8 0.2 
| 0.6 0.4 
转移 概率 图 见 图 7. 1. 
0.2 
0.8 0.4 
进步 0.6 落后 


图 7.1 例 7.1 中 的 转移 概率 图 


例 7.2 (蜘蛛 和 苍蝇 ) 一 只 苍蝇 在 一 条 直线 上 移动 ， 每 次 移动 一 个 单位 长 度 ， 每 单位 
时 间 , 它 以 0.3 的 概率 向 左 移动 一 个 单位 ， 以 0. 3 的 概率 向 右 移动 一 个 单位 , 且 以 0. 4 的 概 
率 停留 在 原 地 ， 并 且 它 们 独立 于 过 去 的 移动 . 两 只 蜂 蛛 等 在 位 置 1 和 位 置 w， 如 果 苍 归 
到 达 这 两 个 位 置 , 它 将 被 蜘蛛 捕 所， 于 是 过 程 就 结束 ， 我 们 将 应 用 马尔 可 夫 链 模型 , 假 
设 苍蝇 开始 位 于 1 和 wm 中 间 的 某 一 个 位 置 . 


我 们 令 状态 为 1,2,… ,7m， 表 示 苍 蝇 对 应 着 的 位 置 . 于 是 非 零 转 移 概 率 为 























Dll 三 1, Pmm 一 l, 
0.3， 阁 7=i 一 1 或 者 7 =i++]， 
pi; = 其 中 j=2,.… ,m 一 1. 
04， 者 了 =% 


转移 概率 图 以 及 转移 概率 矩阵 见 图 7. 2. 
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图 7.2 例 7.2 中 的 转移 概率 图 和 转移 概率 和 矩阵， 其 中 zr4 
例 7. 3( 机 器 出 现 故障 、 维 修 和 更 换 ) 台 机 器 在 给 定 的 茶 天 可 能 正常 工作 也 可 能 
现 故障 ， 如 果 它 正常 工作 , 那 它 以 概率 在 下 一 天 出 现 故障 ， 并 且 以 概率 1-2 在 下 一 
天 正常 工作 . 如 果 它 在 该 天 出 现 故障 ， 那 就 维修 这 人 台 机 器 . 则 它 以 概率 7 在 下 一 天 正常 
工作 , 并 且 以 概率 1-r 在 下 一 天 仍然 出 现 故 障 . 
我 们 利用 马尔 可 夫 链 给 该 机 器 的 状态 建立 模型 , 两 个 状态 如 下 : 

状态 1: 机 器 正常 工作 ; 状态 2: 机 器 出 现 故 障 . 


转移 概率 图 如 图 7. 3 所 示 . 转移 概率 算 阵 为 


1 一 了 
Tr 1—r | 


























正常 工作 出 现 故 障 


图 7.3 例 7. 3 中 的 转移 概率 图 
这 里 的 状态 转移 显然 具有 马尔 可 夫 性 质 : 第 二 天 机 器 的 状态 只 依赖 于 当天 的 状态 .但 


是 , 就 算 状 态 是 依赖 于 前 几 天 的 状态 ， 也 是 可 以 利用 马尔 可 夫 链 模型 的 . 一 般 的 想法 是 
添加 新 的 状态 来 刻画 过 去 相关 的 信息 , 下 面 介绍 这 种 处 理 方法 . 






































假设 只 要 机 器 在 7 天 内 都 出 现 故障 的 话 , 那么 就 用 一 台新 机 器 代 蔡 这 人 台 机 器 ， 为 了 利 
用 马尔 可 夫 链 模型 , 我 们 将 原来 的 表示 机 器 出 现 故 障 的 状态 2， 用 几 个 新 的 状态 代替 , 这 
些 状态 包含 了 机 器 出 现 故障 的 天 数 . 它们 是 

状态 (2，7 ) :机 器 已 经 出 现 故 障 7 天 ,大 一 卫 2 


该 转移 概率 图 如 图 7. 4 所 示 ， 其 中 /=4. 











图 7.4 例 7. 3 中 第 二 部 分 的 转移 概率 图 . 如 果 机 器 持续 出 现 故障 7=4 天 将 会 被 换 成 
一 个 新 的 能 正常 工作 的 机 器 






































7.1.1 路 径 的 概率 


给 定 一 个 马尔 可 夫 链 模型 , 我 们 可 以 计算 未 来 任何 一 个 给 定 状 态 序 列 的 概率 ， 这 类 似 于 
在 序 贯 树 形 图 中 乘法 规则 (the multiplication rule) 的 应 用 . 特别 地 ， 我 们 有 














PlXo 一 i0, X1 二 ?1， i ;Xn 一 in) 一 PlXo = i0)Pioii Piuis "Pi i,: 
为 证 明 该 性 质 ， 注 意 到 
PlX0o 一 i0, XX] = 11, A ,Xn = in) 
=P(Xn, = in|Xo = i0, -ee ,n=1 一 2 )PlXo = i0, 2 ;ni = in—1) 
=pi,_uin PlXo 一 i0, 0 | = in_1 h 


其 中 最 后 一 个 等 式 我 们 利用 了 马尔 可 夫 链 的 性 质 . 接 下 来 应 用 同样 的 方法 来 计算 
PlXo 二 10,…* ,六 n-1 二 in-1)， 依 次 计算 下 去 就 可 以 得 到 我 们 所 期 望 的 形式 . 如 果 初 始 状态 
Xo 已 知 ， 且 等 于 某 个 io ， 那 么 类 似 的 推导 可 得 











PUAXT = in|X0 20) 有 Pi 证” 


图 形 上 ， 一 个 状态 序列 能 表示 为 在 转移 概率 图 中 一 个 转移 弧 线 序列 , 并 且 在 给 定 初始 状 
态 下 ， 该 路 径 的 概率 等 于 每 个 弧 线 上 转移 概率 的 乘积 . 


例 7.4 对 于 蜘蛛 和 苍蝇 例子 ( 例 7. 2) 中 ， 我 们 有 





PLX1 法; X2 一 2.X3 二 3. Xs 一 4|Xo 一 2) 三 p22P22 P23P34 二 (0.4)?(0.3)2. 


我 们 也 可 以 得 到 
P(Xo = 2,X1 = 2,X2 = 2,X3=3,X4=4)= P(Xo= 2)p2p2p3pa 
= P(Xo = 2)(0.4)2(0.3)2. 


注意 ， 要 计算 上 述 非 条 件 形式 的 路 径 概 率 , 需要 知道 初始 状态 Xo 的 概率 分 布 . 


7.1.2 4 步 转移 概率 


许多 马尔 可 夫 链 问题 要 求 计算 在 当前 状态 的 条 件 下 , 未 来 某 个 时 期 状态 的 概率 分 布 ， 这 
个 概率 称 为 n 步 转移 概率 ， 定 义 为 


rij(n) = P(X = jlXo = i). 












































换 句 话说 , "(7) 表示 在 给 定 当 前 状态 i 的 条 件 下 , n 个 时 间 段 后 的 状态 将 是 J 的 概 
率 . 它 可 以 通过 下 面 的 基本 人 迭代 公式 计算 ， 该 公式 被 称 为 查 普 曼 - 科 尔 莫 戈 罗 夫 方 程 
(Chapman-Kolmogorov 方 程 , 也 即 C-kK 方 程 ). 

0 步 转移 概率 的 查 普 曼 - 科 尔 莫 戈 罗 夫 方程 


7 步 转移 概率 利用 和 迭代 公式 求 得 


rijln) = >》 7 让 (mn 一 1)pr; 
| 对 于 所 有 7 > 1,1,7 成 立 ， 








其 中 
rij(1) = pij. 


为 证 明 该 公式 ， 我 们 只 需 应 用 如 下 全 概率 公式 : 





P(X, = jlX0=1i) = i = kXo = iP(X, = jlXn_1 = k, Xo = 1) 
k=1 


m 


一 》 ri 人 — 1)pkj: 
k=1 


我 们 在 这 里 利用 了 马尔 可 夫 性 质 : 只 要 以 Xn-1 = 大 为 条 件 ， 那 么 条 件 Xo =i 将 不 会 
对 下 一 步 到 达 j 的 概率 Pi 产生 影响 ， 图 示 请 见 图 7. 5. 





时 刻 0 时 刻 2” 一 1 时 刻 ?” 





图 7.5 C-K 方 程 的 推导 示意 图 . n 时 刻 达到 状态 .7 的 概率 等 于 以 不 同 路 径 到 达 ,7 
的 概率 Tik(n 一 1)px; 的 总 和 


我 们 把 a 看 成 一 个 二 维 矩阵 第 7 行 第 列 的 元 素 , 组 成 的 矩阵 称 为 n 步 转移 概 
率 矩 阵 . :图 7. 6 和 图 7. 7 分 别 表 示例 7. 1 和 例 7.2 中 的 n 步 转移 概率 芒 (")， 在 这 两 个 例 
子 中 , 发 现 了 许多 ("MW 很 有 趣 的 极限 性 质 ， 在 图 7. 6 中 , 我 们 发 现 当 n 一 ce 时 ， 每 一 
个 瑟 ) 都 收敛 于 一 个 极限 值 ， 这 个 极限 值 不 依赖 于 初始 状态 z. 因此 ， 当 时 间 不 断 增 
大 时 每 个 状态 都 有 一 个 正 的 “ 稳 态 ”概率 ， 进 一 步 地 , 概率 三 (MW 在 n 很 小 时 ， 依 赖 
于 初始 状态 民 但 是 随 着 时 间 的 增 大 ， 这 种 依赖 性 将 会 逐渐 消失 . 很 多 (但 不 是 全 部 ) 随 
0 在 充分 长 的 时 间 后 ， 初 始 条 件 的 影响 可 以 被 












































1 对 算 阵 乘法 运算 熟悉 的 读 方程 可 以 如 下 表述 :7 人 2) 组 成 的 步 转移 概率 矩阵 , 等 于 由 7 订 (7 一 1 
组 成 的 1 步 转移 概率 和 陈 采 以 步 转移 概率 矩阵 ， 所 以 步 转移 概率 矩阵 是 转移 概率 矩阵 的 /次 方 . 









































7 


n 步 转移 概率 作为 步 数 ”的 函数 


?7 试 1) ra(2) ri( 3) 75(4) ri(3) 
n 步 转移 概率 矩阵 的 序列 





图 7.6 例 7. 1 的 2 步 转移 概率 . 观察 到 随时 间 2 的 增加 ,72) 收敛 于 不 依赖 于 初 
始 状态 的 极限 值 


在 图 7.7 中 ， 我 们 发 现 了 在 数值 上 的 不 同 极限 行为 : 三 42) 依旧 收敛 , 但 是 极限 值 依赖 于 
初始 状态 ， 而 且 对 于 某 特定 的 状态 极限 值 可 能 为 0， 这 里 , 我 们 有 两 个 状态 是 “ 吸 
收 ” 状 态 ， 也 就 是 说 一 旦 到 达 了 这 个 状态 , 将 永远 处 于 这 个 状态 .具体 地 说 状态 1 和 状 
态 4 是 “吸收 状态 ”, 与 实际 问题 相对 应 的 意思 是 苍蝇 被 两 只 蜘蛛 之 一 捕捉 . 只 要 给 足 时 
间 , 苍蝇 一 定 会 到 达 吸 收 状 态 ， 即 苍蝇 被 蜂 蛛 捕捉 ， 因 此 , 处 于 非 吸收 状态 2 和 状态 3 的 
er 间 的 增长 将 减 小 为 0， 最 后 , 完 竟 达到 哪个 吸收 状态 ， 其 概率 的 大 小 取决 于 初 
台 位 置 的 远近 . 
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! 步 转移 概率 和 矩阵 的 序列 


图 7.7 图 的 上 部 表示 “蜘蛛 和 苍蝇 ”的 例 7. 2 中 , 2 步 转移 概率 matz) 随 n 变化 的 
状况 . 我 们 观察 到 这 些 概率 收敛 于 一 个 极限 值 ， 但 是 极限 值 依赖 于 初始 状态 工 图 的 
下 部 展示 2 步 转移 概率 窍 阵 随 2 的 变化 状况 ， 注 意 , 处 于 非 吸 收 态 2 或 状态 3 的 概率 
rzln) 和 ralm)， 随 n 的 增 大 , 其 概率 值 趋 近 于 0 


这 些 例子 说 明了 马尔 可 夫 链 状态 类 型 以 及 渐 近 性 质 的 多 样 性 . 这 激发 了 我 们 对 马尔 可 夫 
链 进 行 分 类 和 分 析 的 兴趣 , 这 将 是 接 下 来 三 节 的 主题 . 














7.2 状态 的 分 类 


在 7. 1 节 , 从 我 们 列举 的 例子 中 可 以 看 到 马尔 可 夫 链 的 不 同 状 态 在 数值 上 具有 不 同 的 性 
质 . 特别 地 ， 一 些 状态 被 访问 一 次 后 ， 一 定 还 会 被 继续 访问 , 而 对 于 另外 一 些 状态 却 不 
是 这 样 的 ， 本 节 将 重点 讨论 这 种 情 况 的 原理 . 特别 地 ， 我 们 希望 给 出 马尔 可 夫 链 的 状 
态 分 类 , 并 重点 分 析 它 们 被 访问 的 长 期 频率 . 


用 一 步 ， 我 们 将 状态 的 可 访问 性 给 出 一 些 严格 的 定义 . 称 状态 .7 为 从 状态 7 可 达 的 ， 
如 果 对 于 某 一 个 pn 步 转移 概率 三 人 也 就 是 说 , 从 状态 出 发 , 某 个 时 段 
之 后， a 男 一 个 等 价 的 定义 是 存在 可 能 的 状态 序列 
41，… ,in-1,j, 开始 于 状态 结束 于 状态 .7 站 其 中 在 步 可 
(21 i (ne) 部 具有 正 归 此 今后 , 我 们 采用 直观 的 语言 “从 7 
出 发 可 到 达 .7“ 表 示 这 种 意思 . 令 40 是 所 有 从 状态 7 可 达 的 状态 集合 ， 我 们 定义 
状态 是 常 返 的 ， 如 果 对 于 每 个 从 7 出 发 可 达 的 状态 志 相 应 地 从 > 出 发 也 可 达 7 
; 也 就 是 说 ， 对 于 所 有 属于 (i) 的 状态 大 状态 7 也 属于 A(7. 


当 我 们 开始 于 一 个 常 返 状态 1， 我 们 只 能 访问 状态 7 E 4 其 中 7 是 从 > 可 达 的 . 
由 于 7 是 常 返 的 ， 从 未 来 任何 一 个 状态 , 总 是 有 一 定 概率 可 以 回 到 状态 7 的. 只 要 给 
中 时 间 ， 这 上 总 是 能 发 生 的 . 重复 该 推 导 可 知 ， 如 果 一 个 常 返 态 被 访问 一 次 ， 那 么 一 定 能 
被 回访 无 限 次 (参见 本 章 末 关于 该 推导 严格 证 明 的 习题 ). 


如 果 一 个 状态 不 是 常 返 的 , 我 们 称 之 为 非常 返 的 ， 所以， 如 果 存 在 一 个 状态 7& A402)， 
使 得 和 二 四 那么 状态 二 是 非常 返 的 ， 当 状 态 7 每 次 访问 后 , 将 以 正 概率 可 以 到 达 
状态 六 只 要 给 足 时 间 ， 这 将 会 发 生 ， 但 那 之 后 , 状态 了 将 不 再 会 被 回访 ， 所 以 ， 非 
常 返 的 状态 只 能 被 回访 有 限 次 , 参见 本 章 末 的 习题 . 


注意 ， 状 态 的 非常 返 或 常 返 能 由 转移 概率 图 的 弧 线 所 决定 [这 些 状态 转移 对 (7,j) 有 
my] 是 Pi 的 具体 数值 决定 ， 图 7. 8 列举 了 一 个 转移 概率 图 , 并 且 附 上 了 状 
态 的 特性 : 常 返 的 或 非常 返 的 . 


非常 返 常 返 


图 7.8 转移 概率 图 中 表示 状态 的 分 类 示意 图 . 对 于 状态 1， 唯 一 可 达 的 状态 就 是 它 
本 身 ， 所 以 状态 1 是 常 返 态 . 状态 1、 3、 4 是 可 从 2 可 达 的 ， 但 是 2 却 不 能 从 它们 可 
达 , 所 以 状态 2 是 非常 返 状态 .状态 3、 4 是 相互 可 达 的 , 所 以 它们 都 是 常 返 的 


如 果 7 是 常 返 态 ， 那 么 从 7 可 达 的 状态 集合 4 组 成 一 个 常 返 类 (或 简称 为 类 ) , 这 
意味 着 4(3) 中 所 有 的 状态 都 是 相互 可 达 的 , 4(2) 之 外 的 状态 不 是 从 这 些 状 态 可 达 的 . 
用 数学 形式 来 表述 就 是 , 对 于 一 个 常 返 态 i， 对 任意 的 7 属于 4(i)， 我 们 有 



















































































4 二 4 站, 这 个 结论 由 和 常 返 的 定义 可 得 . 例如 ， 在 图 7. 8 中 ， 状 态 3 和 状态 4 形成 一 个 常 
返 类 ， 而 状态 1 自身 形成 一 个 常 返 类 . 

可 以 看 到 ， 从 任何 一 个 非常 返 状态 出 发 ， 至 少 有 一 个 常 返 状态 是 从 它 可 达 的 ， 这 是 一 
个 直观 的 事实 , 证 明 将 留 作 本 章 末 的 习题 ， 由 此 可 以 知道 ,一 个 马尔 可 夫 链 至 少 存在 一 
个 常 返 状态 ， 从 而 也 就 至 少 存在 一 个 常 返 类 . 所 以 我 们 可 以 得 到 以 下 结论 . 




















马尔 可 夫 链 的 分 解 
。 一 个 马尔 可 夫 链 的 状态 集合 可 以 分 解 成 一 个 或 多 个 常 返 类 , 加 上 可 能 的 一 些 非 
常 返 状态 . 
。 一 个 常 返 态 从 它 所 属 的 类 里 任何 一 个 状态 出 发 是 可 达 的 , 但 从 其 他 类 里 的 常 返 
状态 出 发 是 不 可 达 的 . 


。 从 任何 一 个 常 返 状态 出 发 都 不 可 到 达 非 常 返 状态 . 
。 从 一 个 非常 返 状态 出 发 ， 至 少 有 一 个 (可 能 有 更 多 个 ) 常 返 态 是 可 达 的 . 





图 7. 9 提供 了 一 些 马尔 可 夫 链 分 解 的 例子 . 状态 的 分 解 为 研究 马尔 可 夫 链 提供 了 一 种 强 
有 力 的 方法 , 同时 对 状态 转移 也 提供 了 直观 的 解释 ， 特别 地 ， 我 们 可 以 看 到 如 下 现象 . 


(a) 一 旦 一 个 状态 进入 (或 开始 于 ) 一 个 常 返 类 ， 它 将 停留 在 这 个 类 里 . 因为 在 这 个 类 里 
的 所 有 状态 都 是 相互 可 达 的 , 类 里 所 有 状态 将 被 无 限 次 的 回访 . 


人 


(b) 如 果 初 始 状态 是 非常 返 的 , 那么 状态 转移 的 路 径 开 始 部 分 包含 非常 返 状态 , 最 后 部 
分 一 定 是 由 来 自 同一 个 类 的 常 返 状态 组 成 的 . 





























一 个 非常 返 状 态 (3) 和 一 个 常 返 类 (1 和 2) 


两 个 非常 返 状态 (2 和 3) 和 两 个 常 返 类 
(1 是 一 个 常 返 类 , 4 和 5 组 成 男 一 个 常 返 类 ) 


图 7.9 一 些 马 尔 可 夫 链 的 状态 分 解 为 常 返 类 和 非常 返 状态 的 例子 示意 图 
为 了 理解 马尔 可 夫 链 长 期 的 行为 ， 分 析 由 单个 常 返 类 组 成 的 链 是 很 重要 的 . 为 了 理解 它 


短期 的 行为 ， 分 析 如 何 从 一 个 给 定 的 非常 返 状 态 出 发 , 进入 一 个 特定 的 常 返 类 的 机 理 也 
是 很 重要 的 .这 两 个 问题 , 长 期 行为 和 短期 行为 ， 将 分 别 是 7. 3 节 和 7. 4 的 研究 重点 . 


周期 


常 返 类 还 有 一 个 重要 的 性 质 , 即 一 个 状态 被 回访 时 间 出 现 或 者 不 出 现 周期 性 ， 特 别 地 ， 
称 一 个 常 返 类 是 有 周期 的 , 如 果 它 的 状态 能 被 分 成 & > 1 个 相互 不 相交 的 子 集 

a | 且 满 足 所 有 的 转移 都 是 从 一 个 这 样 的 子 集 到 下 一 个 ， 参 见 图 7. 10. 更 加 精确 
地 说 ， 就 是 





diez 当 = ,as = 1, 
如 果 ie€e Si 且 pi; > 0, 那么 | he 
Ff € 1 当 k=d. 


如 果 一 个 第 返 类 不 具有 周期 ， 我 们 称 之 为 非 周期 的 . 








图 7. 10 有 周期 的 常 返 类 的 结构 . 本 图 中 ， 周 期 3 


所 以 ， 在 一 个 有 周期 的 常 返 类 中 ， 我 们 从 茶 个 子 集 的 一 个 状态 出 发 , 依次 通过 每 一 个 子 
集 ， 经 过 da 步 后 ， 又 回 到 了 原来 的 子 集 ， 举 例 说 明 , 图 7. 9 中 的 第 二 个 链 ， 常 返 类 ( 状 
态 1 和 状态 2) 是 有 周期 的 ， 由 状态 1 出 发 , 经 过 状态 2， 又 回 到 状态 1， 同样 地 ， 图 7. 9 中 
的 第 三 个 链 , 由 状态 4 和 状态 5 组 成 的 常 返 类 也 是 有 周期 的 . 此 外 , 该 图 中 所 有 其 他 的 常 返 
类 都 是 非 周期 的 . 


注意 ， 给 定 一 个 有 周期 的 常 返 类 ， 对 于 链 中 任意 一 个 正 时 刻 有 以 及 类 中 的 状态 六 则 
必 存 在 一 个 或 多 个 状态 有 使 得 性 (m) = 0. 其 原因 是 从 状态 7 出 发 ， 时 刻 pn 只 可 能 
到 达 其 中 一 个 集合 Sk， 所 以 , 要 证 明 一 个 给 定 的 常 返 类 R 是 非 周期 的 , 只 需 验证 是 否 
存在 一 个 特定 的 时 刻 >1 和 特定 的 状态 ie 忌 使 得 经 过 六 步 以 后 ， 可 以 到 达 中 
所 有 的 状态 , 也 就 是 说 ， 对 于 所 有 的 j ER 有 广 (m) > 0， 举 例 说 , 图 7. 9 中 的 第 一 个 链 
从 次 态 1 始 ， 每 一 个 状态 都 可 能 在 时 刻 53 时 到 达 , 所 以 该 链 中 唯一 的 一 个 常 返 类 
是 非 周期 的 . 


相反 的 陈述 也 是 正确 的 (在 此 不 给 予 证 明 ) : 如 果 一 个 常 返 类 R 是 非 周期 的 ， 那 么 必 存 
在 时 刻 n»， 使 得 对 于 任何 属于 〖 的 任意 7 和 六 均 有 "(mW> 10, 参见 本 章 末 的 习题 . 


周期 



































考虑 一 个 常 返 类 用 
。 如 果 一 个 类 中 的 状态 能 被 分 成 4 > 1 个 互 不 相交 的 子 集 5 … ,sa 满足 所 有 
i Sk 到 Sk+1 的 (或 到 51, 当下 =d 时 )， 则 称 该 类 为 周期 


。 类 有 称 为 非 周期 的 ， 当 且 仅 当 存 在 时 刻 ws， 使 得 对 于 任何 ',j& RR， 满 足 


rij (nn)} 二 0 


7.3 稳 态 性 质 


在 马尔 可 夫 链 模型 中 ， 我 们 常常 感 兴趣 的 是 它 长 期 的 状态 性 质 ， 也 就 是 说 , 当时 刻 
非常 大 时 ， 步 转移 概率 ey 0 我 们 在 图 7. 6 看 到 三 (2) 收敛 到 一 个 固定 
有 并 独立 于 初始 状态 的 选取 . 我 们 希望 了 解 这 种 收敛 竹 质 在 多 大 程度 上 是 典型 的 性 
抽 . 











如 果 有 两 个 或 者 更 多 个 常 返 状 态 类 ， 很 显然 , 三 42) 的 极限 值 一 定 依赖 于 初始 状态 (未 来 
访问 J 的 概率 依赖 于 状态 7 是 否 和 初始 状态 7 处 于 相同 的 类 ). 所 以 ， 我 们 将 链 限 定 
于 只 有 一 个 常 返 类 ， 加 上 一 些 可 能 存在 的 非常 返 状 态 . 对 于 单个 常 返 类 的 情况 研究 清 
楚 以 后 , 多 个 常 返 类 的 情况 也 就 变 得 简单 明白 了 .因为 我 们 知道 ， 一 旦 状态 进入 一 个 特 
定 的 常 返 类 ， 它 将 一 直 处 于 这 个 类 中 .所 以 , 可 以 利用 单一 类 链 的 渐 近 行为 去 理解 具有 
多 个 常 返 类 的 马尔 可 夫 链 的 渐 近 行为 . 

人 常 返 类 的 链 , (MW 也 可 能 是 不 收敛 的 . 为 了 验证 这 点 ， 我 们 假设 一 
个 常 返 类 具有 两 个 状态 , 状态 1 和 状态 2, 满足 状态 1 只 能 到 达 状 态 2， 而 状态 2 也 只 能 到 
达 状态 1 (pi = pa = 1) . 那么 ， 从 某 一 个 状态 开始 ， 任 意 偶数 次 转移 后 将 回 到 原来 的 状 
态 , 任意 奇数 次 转移 之 后 达到 对 方 的 状态 ， 也 就 是 ， 


1, nn 是 俩 数 ， 
0， nn 是 奇数 ， 


这 种 现象 说 明 该 常 返 态 是 周期 的 ， 并 且 广 \MW 是 摆动 的 . 
排除 我 们 前 面 讨论 的 两 种 情况 (多 个 常 返 类 和 有 周期 的 类 ) 外 , 现在 我 们 可 以 断言 ， 对 于 


























ri 人 = 














每 一 个 状态 也 处 于 状态 7 的 概率 (中 趋 近 于 一 个 独立 于 初始 状态 了 的 极限 值 ,这 
个 极限 值 记 为 矶 ， 有 如 下 表示 : 
矶 S PC = 当 很 大 时 ， 











并 且 称 之 为 状态 7 的 稳 态 概率 ， 接 下 来 是 一 个 重要 定理 . 它 的 证 明 很 复杂 , 将 结合 本 
章 末 问题 的 几 个 其 他 证 明 列 出 ， 


考虑 一 个 非 周期 的 、 单个 常 返 类 的 马尔 可 夫 链 . 那么 ， 状 态 7 和 它 对 应 的 稳 态 概 
率 具有 如 下 性 质 . 


(a) 对 于 每 个 我们 有 : 














由 (由 = 对 于 所 有 的 工 
(bp) i 是 下 面 方程 组 的 唯一 解 : 


Ti = 》 TEDKj, f= 1,.… ,7m, 





天 一 1 
i nk 
大 一 1 
(c) 另外 有 : 
nj =0, 对 于 所 有 的 非常 返 状态 .j 
nj > 0, 对 于 所 有 的 常 返 态 江 


稳 态 概率 5 的 总 和 为 1， 在 状态 空间 中 形成 了 概率 分 布 ， 通 冲 称 之 为 链 的 平稳 分 布 
(stationary distribution)， 称 之 为 平稳 的 原因 是 ， 如 果 初 始 状态 是 根据 该 分 布 选择 
的 , 也 就 是 说 ， 如 果 


P(X0=j)=7, j=1,…,m, 


那么 ， 利 用 全 概率 公式 ， 我 们 有 


mm m 


P(X1=7)) 一 Xo = kpkj = > TPR = Tj 
大 一 1 
人 态 收敛 定理 的 第 (b) 部 分 ， 类 似 地 , 对 于 所 有 的 2 和 
了 均 有 En = 天 = 而 ， 所 以 ， 如 果 初始 状态 根据 平稳 分 布 选择 ， 那么 未 来 任何 时 候 的 状 
态 都 具有 相同 的 分 布 . 








mm 


= 》 Tkphj， 闻 二 .了 人 
k=1 


称 之 为 平衡 方程 组 . 它们 是 上 述 定 理 第 (a) 部 分 和 查 普 曼 - 科 尔 莫 戈 罗 夫 方程 组 的 简单 结 
合 的 结果 . 实际 上 ， 一 旦 三 4 收银 于 某 一 个 五 ， 那 么 我 们 考虑 方程 组 


mm 


rij(n) = >》 7 让 人 一 1)px;, 


天 一 1 


两 边 对 一 oo 取 极限 , 得 到 平衡 方程 组 .“ 又 结合 归 一 化 方程 















































?运用 线性 代数 中 一 个 重要 的 著名 定理 ( 称 为 佩 龙 - 弗 洛 比 尼斯 定理 ), 可 以 证 明 任意 马尔 可 夫 链 的 平衡 方程 组 总 有 非 
负 解 . 一 个 非 周期 的 只 有 单个 常 返 类 的 马尔 可 夫 链 ， 综 合 归 一 化 方程 , 平衡 方程 组 的 解 是 唯一 的 , 也 就 是 h 步 转移 
| 概率 三 (73 的 极限 . 
















































































平衡 方程 组 能 够 解 出 歹 ， 下 面 举 一 些 例子 来 说 明 如 何 求解 . 
例 7.5 考虑 两 个 状态 的 马尔 可 夫 链 ， 它 们 的 转移 概率 是 


ni = 人 0.8, p12 = 0.2, 
p21 = 0.6, p22 = 0.4. 


(这 和 例 7. 1 和 图 7. 1 介绍 的 链 是 相同 的 . ) 平衡 方程 组 为 


T= MP TT Top2l, T2 = MP12 TT MTP, 





妈 


Tl 一 0.8.Tl 十 0.6. To2， To 一 0.2.Tl 十 0.4.72. 


注意 到 上 面 的 两 个 方程 是 相互 依赖 的 ， 因 为 它们 都 等 价 于 


Tl = 372. 


这 是 一 个 一 般 结论 , 实际 上 可 以 证 明 平 衡 方程 组 内 的 任何 方程 都 可 以 利用 剩 下 的 式 子 推 
导出 来 . 然而 ， 我 们 知道 万 满足 归 一 化 方程 


Tl 十 To 一 1， 


它 是 平衡 方程 组 的 一 个 补充 ， 从 而 能 唯一 地 得 到 了 实际 上 , 将 方程 ma = 3na 代入 方程 
Tl 十 72 一 1 可 以 得 到 372 十 Ta 一 1 从 而 











再 将 它 代 入 卉 十 Tw2 二 1， 得 到 

下 1 一 0.75. 
这 个 结果 和 我 们 前 面 通过 迭代 查 普 曼 - 科 尔 莫 戈 罗 夫 方程 组 得 到 的 结果 一 致 ( 见 图 7. 6). 
例 7.6 一 位 健忘 的 教授 有 两 把 雨伞 ， 用 于 上 下 班 往返 于 家 和 学 校 之 间 . 如 果 下 雨 且 在 
她 所 处 位 置 有 一 把 雨伞 可 用 ， 那 么 她 就 会 带 上 它 . 如 果 没 有 下 雨 ， 她 总 是 忘记 带 雨 全 
假设 每 次 她 出 门下 雨 的 概率 是 p, 且 独 立 于 其 他 时 候 . 请 问 她 在 路 上 被 淋 湿 的 稳 态 概率 
是 什么 ? 
我 们 利用 马尔 可 夫 链 建立 模型 ， 假 设 以 下 状态 : 

状态 7 : 在 她 所 在 地 有 7 把 雨伞 可 用 ， 关 0，1，2. 


图 7. 11 表 示 对 应 的 转移 概率 图 , 相应 的 转移 概率 矩阵 为 3 






































| 3 矩阵 中 第 一 行 表 示 她 出 门 时 门口 没有 个, 她 到 达 目 的 地 的 门口 必定 有 两 把 伞 , 因此 由 Poo = 0,Pol = 0, po = | 
第 二 行 表示 她 出 门 时 门口 只 有 一 把 爹 ， 她 以 概率 p 将 这 把 金 带 走 , 以 概率 为 【1 一 了 ) 将 金 留 在 原 地 , 这 样 目 的 地 

门 ey 相应 的 转移 概率 如 矩阵 的 第 二 行 所 示 . 总 之 ， 她 所 在 地 门口 的 伞 的 把 数 形成 一 个 马尔 可 夫 链 . 
| 一 一 译 者 注 









































































































































1 
a 
1—» 也 


门口 没有 伞 “门口 有 两 把 全 门口 有 一 把 全 
图 7.11 例 7. 6 中 的 转移 概率 图 











这 个 马尔 可 夫 链 具有 单个 常 返 类 ， 且 是 非 周 期 的 (假设 0<P<1 ), 所 以 可 以 利用 稳 态 
收敛 定理 .其 平衡 方程 组 是 
mo = (1 — pr, Ti = (1— p+ pro, m2 = Mt PA. 
由 第 二 个 方程 ， 我 们 知道 ma, 再 结合 第 一 个 方程 wo = (1 一 了 )m2 和 归 一 化 方程 
To0 十 fl 十 To 三 二 得 到 
ED SEE 
人 =: SS —p. 2 —p 








根据 稳 态 收敛 定理 ， 教 授 发 现 自己 所 在 地 方 没有 雨 金 的 稳 态 概率 是 mo. 那么 教授 将 被 
淋 湿 的 概率 是 mw 乘 上 下 雨 的 概率 p 


例 7.7 一 个 迷信 的 教授 在 一 个 具有 wm 扇 门 的 环形 建筑 里 面 工作 , wm 是 奇数 ， 他 绝 不 
连续 两 次 打开 同一 忆 门 ， 相反 , 他 以 概率 p (或 概率 1-p ) 以 顺 时 针 方 向 (或 相应 地 以 
逆 时 针 方向 ) 打 开 他 上 一 次 打开 的 相 邻 门 . 请 问 选 定 一 扇 门将 在 未 来 一 天 被 用 到 的 概率 ? 


























图 7.12 例 7.7 中 的 转移 概率 图 , zr5 对 应 的 情况 示意 图 .假设 0<P< 1， 不 难 发 
现 ， 选 定 一 个 初始 状态 z 每 一 个 状态 .7 都 可 以 在 5 步 能 达到 ， 所 以 该 链 是 非 周期 的 


我 们 利用 马尔 可 夫 模 型 ， 有 以 下 ww 个 状态 : 
状态 :教授 打开 的 是 第 7 扇 门 ，i = 1,… ,m. 
转移 概率 图 如 图 7. 12 所 示 (图 中 wr5) .转移 概率 矩 阵 为 


0 p 0 0 ... 0 l—p 
1l—p 0 p 0 ... 0 0 

0 1 一 PP 0 PP ... 0 0 

p 0 0 0 ... 1 一 尹 0 


假设 0< P< 1， 该 链 有 非 周 期 的 单个 常 返 类 (验证 非 周 期 性 , 我 们 选 定 一 个 初始 状态 
7 ， 每 一 个 状态 7 都 可 以 在 确定 的 w 步 能 到 达 , 于 是 上 节 末 提出 的 非 周期 性 判定 规则 
能 满足 ). 平衡 方程 组 为 





Tl = (1 — pn2 + prm, 
Ti 一 pMmii+(l— pm 1=2,.…,m—1, 


Am 一 (1 Ee PT 十 prm-—l1: 


注意 ， 由 其 对 称 性 ， 这 个 方程 组 很 好 解 ， 所 有 的 门 都 具有 一 样 的 稳 态 概率 . 所 以 解 为 





Ti 一 一 ， 7=1,2,.… ,m. 





确实 ， 我 可 以 看 到 i 是 满足 平衡 方程 组 和 归 一 化 方程 的 , 所 以 它们 一 定 就 是 我 们 所 求 
的 稳 态 概率 (利用 稳 态 收敛 定理 的 唯一 性 ). 


注意 ， 如 果 0 或 者 天 1， 链 也 只 有 单个 常 返 类 ， 但 是 是 有 周期 的 . 在 这 种 情况 下 ， 了 
步 转移 概率 三 4m) 不 会 收敛 于 某 一 个 极限 值 , 因为 门将 会 被 按照 环形 顺序 使 用 ， 类 似 

地 ， 如 果 w 是 偶数 ， 链 的 常 返 类 也 是 有 周期 的 ， 因 为 状态 将 可 以 分 成 两 个 子 集 , 偶数 
和 奇数 号 码 的 状态 ， 并 且 满 足 从 一 个 子 集 只 能 到 达 下 一 个 子 集 . 


7. 3. 1 长 期 频率 解释 


{ 概 } 率 通常 被 解释 为 无 限 次 独立 重复 试验 的 事件 发 生 的 对 应 频率 . 尽管 缺乏 独立 重复 试 
验 的 那 种 独立 性 , 马尔 可 夫 链 的 稳 态 概率 也 具有 这 样 类 似 的 解释 . 


例如 ， 考 虑 一 个 与 机 器 相关 的 马尔 可 夫 链 ， 每 天 工作 结束 的 时 候 , 机 器 有 两 种 状态 ， 正 
常 工 作 或 出 现 故障 ， 每 次 出 现 故 障 时 , 就 立即 花 1 美 元 维修 .我 们 应 该 如 何 建立 模型 ， 
计算 长 期 的 每 天 平均 修理 费 ? 一 种 可 能 是 将 它 看 成 未 来 任意 一 天 的 修理 费 的 均值 , 这 就 
需要 计算 故障 状态 的 稳 态 概率 ， 另 一 种 方法 是 : 首先 可 以 计算 wz 天 内 的 总 期 望花 费 . 
当 2 很 大 时 ， 再 除 以 冯 直觉 告诉 我 们 ， 两 种 计算 方法 将 会 得 到 一 样 的 结果 , 这 样 的 直 
觉 是 有 理论 根据 的 . 下 面 是 关于 稳 态 概率 的 解释 (证 明 将 在 本 章 末 的 习题 中 给 出 ). 


对 于 一 个 非 周期 的 具有 单个 常 返 类 的 马尔 可 夫 链 , 状态 的 稳 态 概率 "i 满足 
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其 中 吃 \W 表示 从 状态 7 出 发 , 在 n 次 转移 中 到 达 状 态 J 的 总 次 数 的 期 望 值 . 


基于 上 述 解 释 , "7 表示 状态 是 7 的 长 期 的 期 望 频 率 . 每 次 状态 7 被 访问 了 , 则 下 一 
将 转移 到 状态 k 的 概率 是 Px， 所 以 ,我 们 得 到 结论 miPjk 可 以 看 作 从 J 转移 到 ; 4 
长 期 转移 概率 . 

















4 事实 上 ， 下 面 更 强 的 结论 也 是 成 立 的 . .对 马尔 可 夫 链 进行 一 个 概率 试验 , 产生 一 个 马尔 可 夫 链 的 无 限 长 的 轨 证 
测 这 个 轨道 的 到 达 状 态 .J 的 长 期 频率 就 是 mj, 发 生 从 状态 .7 转移 到 状态 & 的 长 期 频率 正好 是 "IPiK. 尽管 
是 随机 的 ， 这 些 等 式 仍然 概率 1 地 成 立 . 


考虑 1 次 转移 , 该 链 是 从 给 定 初始 状态 出 发 的 、 非 周期 的 ， 且 
有 具有 单个 常 返 类 . 令 Sm) 为 在 时 间 n 内 ， 从 状态 J 到 状态 K 的 转移 期 望 次 
数 , 那么 ， 无 论 初始 状态 是 什么 ， 均 有 
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给 出 7 和 7Pjk 的 频率 解释 以 后 , 平衡 方程 组 





这 具有 直观 的 意义 . 访问 J 的 期 望 频率 万 等 于 能 到 达 J 的 转移 的 期 望 频率 次 Phi 的 
总 和 , 参见 图 7. 13. 






Tmp 7727 


图 7. 13 在 频率 意义 下 对 平衡 方程 组 的 解释 ， 在 次 数 很 大 的 转移 中 , 我 们 认为 7kP 
表示 状态 从 & 到 ,的 期 望 频率 ( 它 也 可 以 应 用 于 7 到 本 身 的 转移 ， 对 应 频率 为 
mp 六 .这 样 的 转移 的 期 望 频率 总 和 就 是 访问 J 的 期 望 频率 亡 


7.3.2 生 灭 过 程 
一 个 生 灭 过 程 也 是 马尔 可 夫 链 . 它 的 状态 是 线性 排列 的 , 具体 地 说 , 生 灭 过 程 的 状态 空间 
为 {0,1,… ,m}, 且 转 移 只 发 生 在 相 邻 状态 之 间 ， 或 者 状态 保持 不 变 . 实际 背景 的 例子 非 
常 多 ， 尤 其 是 排队 论 . 图 7. 14 表 示 了 一 个 生 灭 过 程 的 一 般 结构 ， 也 介绍 了 转移 概率 的 一 
般 情况 . 特别 地 ， 

bi 二 P(Xnti =i+1Xn =i)， (在 状态 i“ 生 ”的 概率 )， 


di 一 P(Xnti 一 i 一 1|Xn = 让 (在 状态 i“ 灭 ”的 概率 ). 
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图 7. 14 _ 生 灭 过 程 的 转移 概率 图 


对 于 一 个 生 灭 过 程 ， 平 衡 方程 组 能 够 充分 地 化 简 ， 我 们 重点 考察 相 邻 状态 7 和 +1. 
在 马尔 可 夫 链 的 任何 轨迹 中 , 从 7 到 二 1 的 转移 一 定 会 跟着 一 个 从 1 到 7 的 转移 
、 是 从 计 1 马上 转 到 7 ), 后 面 这 个 转移 会 在 另 一 个 工 到 i+tl 的 转移 发 生 之 

换言之 , 在 马尔 可 夫 链 的 任何 轨迹 中 , 由 7 到 坟 1 的 转移 和 由 z+1 到 7 的 转移 
一 定 是 交 和 葵 出 现 的 所 以 ,从 了 到 六 1 的 转移 的 期 望 频率 7ib 一 定 等 于 从 i+1l 到 
7 的 转移 的 期 望 频率 winidin. 这 就 推出 了 一 个 局 部 平衡 方程 组 5 


























区 本 频率 解释 法 ， 也 可 以 如 下 正式 推导 ， 状 态 0 的 平衡 方程 是 T0(1 一 00) 十 mldl 二 To, 所 以 可 以 推导 出 第 一 
个 局 部 平衡 方程 ， Toao = Tldl. 状态 1 的 平衡 方程 是 To 如 十 TtlL 一 斑 一 下 ) 十 To2do == TTl. 运 用 前 一 个 状态 的 
平衡 方程 mobo 二 Tl1d1, 可 得 mid! 十 nill = bl 一 di) 本 Tod = 二 1. 化 简 可 得 ? nib1 = = Tody 继续 推导 
| 下 去 , 就 可 以 得 到 所 有 状态 的 局 部 平衡 方程 组 . 




























































































Tibi= Tindi, i1=0,1,.… ,mo—1. 


利用 这 个 局 部 平衡 方程 组 ， 可 以 得 到 
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1 三 .= .7 


ni=1 
由 此 ， 再 利用 归 一 化 方程 > , 稳 态 概率 五 就 容易 算出 了 . 


例 7.8( 具 有 反射 壁 的 随机 游 动 ) 一 个 人 在 直线 上 行走 ， 每 一 个 时 刻 ， 他 向 右 走 的 概 

率 是 b 向 左 走 的 概率 是 1-bp， 该 人 开始 于 位 置 1,2,… ,m 中 的 任 一 个 ,但 是 如 果 他 到 

达 位 置 0 (或 者 wt1), 他 将 自动 返回 到 位 置 1 (或 者 位 置 wm )， 这 等 价 于 , 我 们 假设 当 他 

到 达 位 置 1 (或 者 wm ) 的 时 候 , 下 一 步 将 以 概率 1-b (或 者 5 ) 停 留 在 原 处 , 以 概率 b 癌 

有 有 起 一 步 (或 以 概率 1-b 向 左 走 一 步 )， 我 们 利用 马尔 可 夫 链 建立 模型 ， 其 状态 为 
2,… ,mm. 转移 概率 图 如 图 7. 15 所 示 . 


1 一 六 后 » 2 % ， 英 pb 
LU 工厂 


1 一 好 1—0b 1=8 [一 四 











图 7.15 例 7.8 随 机 游 动 例 子 的 转移 概率 图 
局 部 平衡 方程 组 为 
Ti 一 Ti 一 人 ， 1=1,.… ,mo—1. 


所 以 , mtHl = Pi 其 中 








于 是 我 们 用 郊 表示 所 有 的 有 


Ti = pil. i = 1,.…,m. 


再 利用 归 一 化 方程 1= 刀 十 … 二 Tm， 我 们 得 到 


1 一 Ti(1L+p 十 十 pm )， 


于 是 得 到 


i—1 
) 5 
ri = 一 一 人 一， i 二 1,.…,m. 
1+p 二 +t 二 +p 


注意 ， 如 果 2= 工 (向 左 和 向 右 的 概率 一 样 ), 那么 对 于 所 有 7 有 = 1/m. 


例 7. 9 (排队 论 ) 在 通信 网 络 中 ， 信 号 包 到 来 后 ， 被 存放 在 缓冲 器 中 然后 传输 . 缓冲 器 
的 储存 容量 是 wm 如 果 已 经 有 ww 个 信号 包 存 在 缓冲 器 中 , 那么 新 到 的 信号 就 自动 丢失 
了 . 我们 将 时 间 切 分 成 很 小 的 部 分 , 并 且 假 设 每 个 时 间 段 , 最 多 有 一 个 事件 发 生 ( 一 个 
新 的 信号 包 的 到 达 或 将 已 经 存在 一 个 信号 包 传 送出 去 ), 改变 系统 中 信号 的 数量 .特别 
地 ， 我 们 假设 每 个 时 间 段 ,只 有 以 下 事件 之 一 发 生 . 


(a) 一 个 新 的 信号 包 的 到 达 , 发 生 概率 是 b > 0;® 
6 如 果 缓 冲 器 中 信号 包 的 个 数 为 mn ， 则 事件 发 生 的 概率 为 0. 一 一 译 者 注 


(b) 如 果 至 少 存在 一 个 信号 包 在 系统 中 ， 则 传送 出 去 一 个 信号 包 , 发 生 的 概率 是 d > 0, 
否则 概率 为 0; 


(c) 没有 新 信号 到 达 , 也 没有 将 已 经 存在 的 信号 包 传送 出 去 . 如 果 当 时 在 缓冲 器 中 信和 号 
包 的 个 数 为 wm , 则 事件 发 生 的 概率 为 1-a ;如 果 当 时 在 缓冲 器 中 存在 至 少 一 个 信号 包 ， 
则 事件 发 生 的 概率 为 1- 刀 Cg ; 如 果 当 时 在 缓冲 器 中 没有 信号 包 ， 则 事件 发 生 的 概率 为 
1 


我 们 建立 一 个 马尔 可 夫 链 ， 其 状态 空间 为 0,1,… ,mm, 这 些 状态 表示 绥 冲 器 中 信号 包 的 
个 数 ， 转 移 概 率 图 如 图 7. 16 所 示 . 转移 概率 图 和 g 够 更 加 明晰 地 表达 这 各 状态 的 转移 关 


pA 
























































l1—b—d l1—b—d 
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图 7.16 例 7. 9 的 转移 概率 图 
局 部 平衡 方程 组 为 
Tib= Aid, 1=0,1,:.…,m—1. 


我 们 定义 


可 以 得 到 Titl = pms 从 而 推出 





Tmi= pno, 1=0,1,.…,m. 


通过 应 用 归 一 化 方程 1 = Tw 十 而 十 … 十 Tim, 我 们 可 以 得 到 





1 = moll 二 Pp 十 … 十 p")， 


以 及 
l= RE 
IT 二 IT 右 D 关 了 
70 一 ] 
一 一 一 = 
zi 二 1 行 0 
再 利用 等 式 元 = Pmw， 稳 态 概率 为 
Pp i 上 
一 一 
Ai = es i = 0, 1 ,m. 
-一 一 若 p = 1 
和 


当 缓冲 器 容量 w 很 大 ， 实 际 中 可 以 认为 无 穷 的 时 候 , 看 看 会 发 生 什么 很 有 趣 的 事情 . 
我 们 分 两 种 情况 . 


(a) 假设 b < d， 或 者 说 ?< 1 这 种 情况 下 , 新 信号 到 达 的 概率 小 于 缓冲 器 中 信号 离开 
的 概率 . 这 就 避免 了 绥 冲 器 中 信号 数量 的 增加 , 并 且 稳 态 概 率 i 随 着 7 增 大 而 减少 ， 
其 分 布 列 为 截 尾 型 的 几何 分 布 . 注意 到 当 普 一 se， 有 1 一 AP ”一 1 以 及 


ri 浅 Pi(1 一 p)， 对 于 所 有 的 工 


我 们 可 以 把 它 看 成 是 具有 无 限 个 缓冲 器 的 系统 的 稳 态 概率 . [验证 时 , 注意 到 

io pll—p)= 1.] 

(b) 假设 5 > d， 或 者 说 > 1 这 种 情况 下 , 新 信号 到 达 的 可 能 性 大 于 缓冲 器 中 信号 离 
开 的 可 能 性 . 缓冲 器 中 信号 的 数量 趋 近 于 增加 , 并 且 稳 态 概 率 元 随 着 7 增 大 而 增加 . 
0 5 肪 任何 状态 Z 的 稳 态 概率 都 是 逐渐 趋 近 于 0 



































下 全 0， 对 于 所 有 的 工 


如 果 我 们 考虑 系统 具有 无 限 个 缓冲 器 , 我 们 将 得 到 一 个 具有 可 数 无 穷 多 个 状态 的 马尔 可 
夫 链 . 尽管 我 们 不 讨论 这 样 的 链 ， 但 是 根据 前 面 的 计算 , 我 们 知道 每 一 个 状态 都 具有 零 
的 稳 态 概率 ， 每 个 状态 将 是 非常 返 的 . 缓冲 器 中 的 信号 的 个 数 将 增加 到 无 穷 多 个 , 并 且 
任何 特定 的 状态 都 只 能 被 访问 有 限 次 . 


前 面 的 分 析 对 具有 可 数 无 穷 多 个 状态 的 马尔 可 夫 链 的 性 质 有 了 一 个 大致 的 了 解 . 在 这 种 
马尔 可 夫 链 中 ， 即 使 是 只 有 一 个 非 周期 的 常 返 类 , 链 的 状态 也 不 会 是 稳 态 ， 也 不 会 有 平 
稳 概率 分 布 存在 . 





























7.4 吸收 概率 和 吸收 的 期 望 时 间 


在 本 节 中 ， 我 们 将 学 习 马 尔 可 夫 链 的 短期 行为 ， 首先 , 考虑 开始 于 非常 返 状 态 的 情形 ， 
我 们 感 兴趣 的 是 首次 访问 常 返 态 的 分 布 以 及 对 应 的 到 达 时 间 的 分 布 . 


当 我 们 讨论 这 个 问题 的 时 候 , 马尔 可 夫 链 的 后 续 行 为 (到 达 常 返 态 之 后 ) 是 不 重要 的 . 所 
以 我 们 重点 讨论 每 一 个 常 返 态 k 为 吸收 的 ， 也 就 是 


Pkk 二 1， 对 于 所 有 的 7 Kk. pk; = 0. 


如 果 只 有 唯一 的 一 个 吸收 态 £ , 那么 它 的 稳 态 概率 为 1( 因 为 其 他 所 有 的 状态 都 是 非常 
返 的 , 并 且 其 稳 态 概率 都 是 0). 从 任何 一 个 初始 的 非常 返 状态 出 发 , 将 以 概率 1 达到 这 个 
吸收 状态 ， 如 果 有 多 个 吸收 状态 ， 那 么 经 过 若干 步 的 转移 ， 这 个 状态 终 将 到 达 某 个 吸 
收 态 . 但 是 具体 到 达 哪 一 个 吸收 态 ， 这 是 随机 的 , 并 且 到 达 各 吸收 态 的 概率 分 布依 赖 于 
a 我 们 固定 一 个 吸收 态 , 设 为 s ， 令 mi 表示 链 从 状态 7 开始， 最终 达 
到 s 世 既 率 : 



































ai = PCX 最 终 等 于 吸收 状态 s|Xo = 
这 个 概率 称 为 吸收 概率 . 吸收 概率 可 以 通过 解 以 下 线性 方程 组 得 到 . 
吸收 概率 方程 组 


考虑 一 个 马尔 可 夫 链 ， 它 的 每 一 个 状态 或 者 是 非常 返 的 , 或 者 是 吸收 的 ， 并 固定 一 
个 吸收 状态 s 那么 从 状态 7 开始 , 最 终 达到 s 的 概率 ai 是 下 列 方程 组 的 唯一 











解 
Qs 
um 0， 对 于 所 有 吸收 状态 i 六， 
Ui 一 SD _ Py; 本 
全 1 对 于 所 有 非 第 返 状态 工 


由 吸收 概率 的 定义 ， 很 明显 得 到 方程 组 os = 1 以 及 对 于 所 有 吸收 状态 i 取 5, mw 一 0 
为 了 证 明 剩 下 的 方程 组 , 论证 如 下 ， 考 虑 一 个 非常 返 状态 令 4 表示 状态 s 最 终 被 
达到 的 事件 . 我 们 有 





皮 二 到 [区 一动 


=》,P (4|Xo =i, Xi=j)P(XI =jXo =i) (全 概率 定理 ) 
小 一 二 

= PC4Xsa = 了 )Pij (马尔 可 夫 性 质 ) 

de 


mm 
> CO 
j= 


关于 吸收 概率 方程 组 的 解 的 唯一 性 需要 单独 的 证 明 , 将 在 本 章 末 的 习题 中 给 出 . 


接 下 来 的 例子 将 阐述 人 前 面 所 述 的 方法 计算 进入 给 定常 返 态 的 概率 (并 非 仅 
仅 是 进入 给 定 吸收 状态 ) 


例 7.10 考虑 如 图 7. 17(a) 所 示 的 马尔 可 夫 链 . a 分 别 是 {1} 
和 {4, 5}. le 最 终 进 入 常 返 类 14 5} 的 概率 ， 为 了 解决 
这 个 问题 ， 考 虑 常 返 类 {4, 5} 内 的 可 能 转移 不 是 实质 性 的 . 所 以 我 们 将 该 常 返 美的 状态 
整合 ， 把 它们 看 威 单个 的 吸收 状态 ( 称 之 为 状态 6， 参见 图 7. 17 (b) . 现在 只 需 计 算 新 链 
中 最 终 进入 状态 6 的 概率 . 


从 非常 返 状态 2 和 3， 最 终 达 到 6 的 概率 满足 以 下 方程 组 : 


a2 = 0.2al 二 + 0.3a2 十 0.4as 十 0.1a6， 
a3 = 0.2a2 十 0.8a6. 


利用 事实 au =0 和 a6 = 1， 我 们 得 到 




















0.1 


图 7.17 (a) 例 7.10 的 转移 概率 图 ; (b) 将 状态 4 和 状态 5 整合 成 吸收 状态 6 的 新 链 


02 一 0.3a2 十 0.4a3 十 0.1. 
a3 = 0.2a2 十 0.8. 


这 是 关于 未 知 数 o 和 as 的 二 元 一 次 方程 组 . 求解 得 到 02 = 21/31 及 03 = 29131 
例 7. 11 ( 赌 徒 的 破产 问题 ) 一 个 财 徒 每 局 赌博 以 概率 p 赢 1 美元 ， 同 时 以 概率 1-p 
输 掉 1 美 元 . 假设 不 同 赌局 之 间 是 相互 独立 的 . 赌 徒 会 一 直 赌博 直到 资金 到 达 某 个 目标 总 


数 或 者 输 掉 全 部 的 钱 . 请 问 最 终 资 金 能 到 达 目 标 ww 或 者 输 掉 他 全 部 资金 的 概率 是 
多 少 ? 


我 们 建立 马尔 可 夫 链 ， 参 见 图 7. 18， 它 的 状态 7 表示 每 次 赌局 开始 时 , 赌 徒 的 资金 . 
状态 二 0 和 去 2 分 别 表 示 最 终 输 和 赢 . 


除了 最 终 输 和 赢 的 状态 是 吸收 的 ， 其 余 状 态 都 是 非常 返 的 ， 所 以 , 问题 转变 成 了 对 应 计 
算 每 个 吸收 态 的 吸收 概率 ， 当 然 , 这 些 吸收 概率 会 依赖 于 初始 状态 7 的 选取 . 


1 一 力 























图 7.18 赌 徒 的 破产 例子 ( 例 7. 11) 的 转移 概率 图 ”这 里 mF4 
我 们 令 s=m， 且 吸收 概率 ai 表示 从 状态 7 出发， 最终 赢 的 概率 . 那么 这 些 概率 满足 


an0 = 0， 
由 一 代 一 Pai-l 十 Pail， 1 一 1 ,mo—1, 
i 


he 以 通过 很 多 种 方法 来 求解 . 下 面 我 们 利用 一 种 比较 简单 的 方法 解 该 方程 
组 . 


对 于 每 个 m;， 我 们 有 





(1—p)(@i —ai1)= pa — 0), 1=1,.… ,mo—1. 
那么 ， 令 
上 一 ai 1=0,:.… ,ml1, 
以 及 
p=? 
从 而 方程 组 转变 成 
=pii tl m= 1 
由 此 可 得 
6i=Pp60 i1=1,.…,m—1. 
于 是 结合 等 式 p 十 61 十 …… 十 0m-l 一 am 一 00 王 1 可 得 
(1+p++p™ 1)50=1, 
也 就 是 
本 
1 十 p 十 … 十 pmr-1l 
因为 mo =0 以 及 oil 三 后 十 高 从 一 个 状态 地 出 发 ,最终 赢 的 概率 ai 是 
Qi 二 0 十 人 十 "… 十 ;1 


一 (1 tpt:: pT)6 
1 十 5 十 .十 大 1 


一 1 十 pP 十 .十 pm 


1— ot 

| 3 由 2 
Ci 一 ; 2 

Te 


结果 揭示 了 ， 如 果 p> 1 也 就 是 了 < 1/2， 赌 徒 每 次 赢 的 概率 相对 小 , 那么 最 终 赢 的 概 
率 (不管 初始 资金 是 多 少 ) 随 m 一 ce 趋 近 于 0， 这 就 表明 ， 如 果 我 们 在 不 理想 的 概率 
下 (每 次 赢 的 概率 小 于 输 的 概率 )， 想 遍 取 更 大 的 资金 , 最 终 完 全 破产 是 几乎 一 定 的 . 


7.4.1 平均 吸收 时 间 


现在 我 们 转 而 关注 从 一 个 特定 的 非常 返 状 态 出 发 , 直到 到 达 一 个 常 返 状态 ( 称 为 “ 吸 
收 ”) 的 平均 步 数 ， 对 于 任何 一 个 z 我们 定义 


应 = 也 [从 状态 i 开始 , 直到 达到 吸收 态 所 需 的 步 数 ] 
一 下 minfn 区 0 区 是 贡 返 态 州 看 = 才 ， 
注意 ， 如 果 7 本 身 为 常 返 态 ， 那 么 根据 定义 点 = 由 
我 们 利用 全 期 望 定理 得 到 关于 yi 的 方程 组 . 从 一 个 非常 返 状 态 7 出 发 直到 进入 吸收 
状态 所 需 的 时 间 的 期 望 值 等 于 1 加 上 从 下 一 个 状态 7 出 发 直到 进入 吸收 状态 所 需 的 时 


间 的 期 望 值 的 加 权 平 均 , 而 权 值 刚好 是 由 7 到 下 一 个 状态 J 的 概率 己 . 于 是 我 们 得 到 
一 个 线性 方程 组 , 可 以 证 明 , 这 个 线性 方程 组 具有 唯一 的 解 (参见 本 章 末 的 习题 33). 



































平均 吸收 时 间 方 程 组 
平均 吸收 时 间 请 ,Am 是 下 列 方程 组 的 唯一 解 : 
Hi=0, 对 于 所 有 的 常 返 状态 也 
Hi 二 1 十 D_ Py 
j=1 对 于 所 有 的 非常 返 状 态 工 





例 7. 12 (蜘蛛 和 苍蝇 ) ”考虑 例 7. 2 中 的 蜂 蛛 和 苍蝇 的 模型 ， 它 对 应 图 7. 19 中 的 马尔 可 
夫 链 . 状态 对 应 苍蝇 可 能 的 位 置 ， 吸 收 状态 1 和 状态 mw 表示 蜘蛛 对 苍蝇 的 捕捉 . 


接 下 来 我 们 计算 苑 晶 被 捕捉 的 平均 步 数 ， 我 们 有 
Li = mn = 
以 及 


上 庆生 1 十 0.37-1 十 0.416 十 0.3141， 当 i1=2,…,m 一 1. 





解 这 个 方程 组 有 很 多 方法 ， 例 如 通过 依次 迭代 法 .现在 我 们 详细 痔 述 , 假定 we4， 方 程 
组 可 以 简化 为 





Ha 三 1 十 0.412 十 0.313， pH3 = 1+0.3n2 十 0.4143， 
第 一 但 程 得 出 一 0/ 本 过 0 人 将 其 代入 第 一 个 方程 可 解 得 我 们 得 到 
13 = 10/3 ye 名 一 个 方程 得 12 = 10/: 
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图 7. 19 例 7. 12 中 的 转移 概率 图 
7.4.2 平均 首 访 时 间 及 回访 时 间 
用 于 计算 平均 吸收 时 间 的 想法 也 可 以 用 于 计算 开始 于 任何 其 他 状态 , 到 达 某 特定 常 返 状 
态 的 平均 时 间 . 为 了 简化 , 我 们 只 考虑 只 有 单个 常 返 类 的 马尔 可 夫 链 . 我 们 着 眼 于 一 个 
特定 的 常 返 态 s， 并 令 所 表示 从 状态 7 到 状态 s 的 平均 首 访 时 间 , 定义 为 
= 也 [从 状态 i 开始 , 首次 达到 状态 s 的 转移 步 数 ] 

a > Ol 
到 达 状 态 s 之 后 的 转移 和 计算 平均 首 访 时 间 是 没有 关系 的 ， 所 以 ,我 们 将 特殊 状态 s 
看 成 一 个 吸收 状态 ( 令 Pss = 1 对 于 所 有 的 了 关 s 令 Ps; =0.)， 新 的 马尔 可 夫 链 本 质 上 


是 和 原来 一 致 的 . 通过 这 个 转化 ， 除 了 s 外 的 所 有 状态 都 是 非 第 返 的 了 .于 是 我 们 利用 
2 前 面 给 出 的 公式 , 计算 时 间 去 相当 于 计算 从 状态 7 出 发 被 吸收 的 平均 步 数 ， 我 们 

















tr 三 上: 十 ty 对 于 所 有 的 ; Fr 


fs 
该 线性 方程 组 能 用 于 解 未 知 的 三 并且 只 有 了 唯一 的 解 ( 参 见 本 章 末 的 习题 ). 


上 上述 方 程 组 给 出 了 从 任何 其 他 状态 开始 ， 到 达 特 定 状态 s 的 平均 时 间 . 我 们 也 可 以 计 
算 到 达 特 定 状 态 s 的 平均 回访 时 间 ， 定 义 为 


臣 三 也 [从 状态 s 开始 , 首次 回 到 状态 s 的 转移 步 数 
=Elmin{n 1|X = s}|Xo = sl. 
如 果 我 们 知道 首次 访问 时 间 三 就 可 以 通过 以 下 方程 得 到 三 , 


mm 


t=1+ Dpst 
j= 


为 了 验证 该 等 式 ， 我 们 说 从 状态 s 开始 , 回 到 状态 s 的 平均 时 间 等 于 1 加 上 从 下 一 个 
状态 出 发 到 达 状 态 s 的 平均 首 访 时 间 ， 链 处 于 下 一 个 状态 .J 的 概率 为 Psi. 利用 全 期 
望 定理 即 可 得 到 二 的 公式 . 


例 7.13 考虑 例 7. 1 中 爱丽 丝 听 课 的 两 种 状态 “进步 ”和 “落后 ”, 证 明 她 的 状态 形成 
一 个 马尔 可 夫 链 ， 状 态 1 和 状态 2 分 别 对 应 进步 和 落后 , 且 转 移 概率 为 


pil = 0.8, pi2 = 0.2, 
p21 = 0.6, p22 = 0.4. 


我 们 着 眼 于 状态 s=1， 计 算 从 状态 2 开始 到 达 状 态 1 的 平均 首 访 时 间 . 我 们 有 羡 =4 以 
及 


to = 1+patit pato = 1+0.4t, 
由 此 可 得 


1 5 
tb ===. 


0.6 3 
到 达 状 态 1 的 平均 回访 时 间 等 于 


刀 三 涪 十 plitl 十 pi2t2 一 1 十 0 十 0.2. 一 5 
平均 首 访 时 间 和 回访 时 间 方程 组 
考虑 只 有 单个 常 返 类 的 马尔 可 夫 链 , 令 s 为 特定 的 常 返 状态 . 


。 从 状态 7 到 状态 s 的 平均 首 访 时 间 万 是 下 列 方程 组 的 唯一 解 : 





mm 


t=0,， 蕊 = 二 1 十 》 pt 
全 ”对 于 所 有 的 i 


。 状 态 s 的 平均 回访 时 间 6 为 


t=1 十 St 
j=1 


7.5 连续 时 间 的 马尔 可 夫 链 

前 面 所 考虑 的 马尔 可 夫 链 中 , 我 们 假设 状态 的 转移 都 是 在 单位 时 间 内 发 生 的 . 本 节 将 考 
虑 连续 时 间 的 模型 ， 它 能 被 用 于 很 多 按照 连续 时 间 到 达 的 过 程 . 例子 是 通信 网 络 中 的 分 
布 中 心 或 结 点 ， 其 中 感 兴趣 的 事件 (例如 , 新 信号 的 到 达 ) 是 按照 泊 松 过 程 到 达 的 . 
与 前 面 类 似 ， 我 们 将 考虑 一 个 过 程 , 它 按照 一 定 的 转移 概率 从 一 个 状态 转移 到 下 一 个 状 
态 ， 但 是 我 们 令 两 次 转移 之 间 的 时 间 是 一 个 连续 随机 变量 . 我 们 依旧 假设 状态 的 个 数 是 
有 限 的 ， 并 且 在 不 特别 指明 的 情况 下 ， 设 状态 空间 是 集合 S = {1,… ,mm 


为 了 进一步 介绍 该 过 程 ， 我 们 引入 以 下 感 兴趣 的 随机 变量 . 
Xn :第 7 次 转移 后 的 状态 ; 
六 :第 nr 次 转移 的 时 间 ; 
了 :第 nn 一 1 次 转移 和 第 ”次 转移 的 间隔 时 间 . 
为 完整 起 见 ， 我 们 假设 Xo 表示 初始 状态 ， 且 令 ”n= 0. 我 们 给 出 以 下 假设 . 
连续 时 间 马 尔 可 夫 链 的 假设 


。 如 果 当 前 状态 是 z 到 下 一 个 转移 的 时 间 服 从 已 给 参数 wi 的 指数 分 布 , 且 独 立 
于 之 前 的 历史 过 程 和 下 一 个 状态 . 


。 如果 当前 状态 是 i， 按 照 给 定 的 概率 请 到 达 下 一 个 状态 芭 而 且 独立 于 之 前 
的 历史 过 程 和 转移 到 下 一 个 状态 的 时 间 间 隔 . 


上 述 假设 是 该 过 程 的 一 个 完整 的 描述 ， 并 提供 一 种 清晰 的 方法 来 解释 它 : 链 进入 状态 
7 在 状态 7 停留 , 停留 时 间 是 按照 参数 为 vi 的 指数 分 布 , 然后 再 以 转移 概率 Pi 到 达 
状态 一 个 直接 的 结果 是 , 状态 序列 Xn 在 经 过 依次 转移 后 ， 成 为 了 一 个 离散 时 间 的 
马尔 可 夫 链 , 其 转移 概率 是 方 ， 该 链 称 为 租 入 的 马尔 可 夫 链 . 
数学 形式 上 ， 我 们 的 假设 可 以 用 公式 来 表达 . 令 
A={T =t, ,TD =, Xo=io ,Xn = in1, Xn = 
为 直到 第 pz 次 转移 发 生 之 前 链 所 有 发 生 的 事件 .我 们 有 
P(Xn+1 = 7,Tnt1 4)=P(Xntl = Tntl tiXn = 
(3 人 % 十 1 二 4|Rs Ee 2 了 (2+1 之 tn i) 
二 pije “*， 对 于 所 有 t > 0. 





























到 下 一 个 转移 的 平均 时 间 为 
E[Tnni|Xn 一 di 让 TVie “"d7 一 二 
J0 


所 以 我 们 可 以 认为 wi 是 停留 在 状态 7 的 单位 时 间 上 , 转移 出 状态 7 的 平均 转移 次 数 . 
人 wi 称 为 跳出 状态 的 转移 速率 . 因为 Pi 表示 从 状态 7 转移 到 状态 J 
A 既 3 z 以 


di 一 VipPi 
表示 停留 在 状态 7 的 单位 时 间 上 ， 从 状态 7 到 状态 .J 的 平均 转移 次 数 . 从 而 ， 我 们 
称 % 为 从 状态 7 到 .7 的 转移 速率 ， 注 意 ， 给 定 转 移 速 率 和 ij, 我 们 就 可 以 通过 下 列 
公式 计算 转移 速率 办 





mm 


Zi 一 》 dij， 


并 利用 下 列 公式 计算 转移 概率 ， 


注意 ， 模 型 可 能 发 生 自身 转移 ， 就 是 从 一 个 状态 出 发 又 回 到 该 状态 . 当 自 身 转 移 概 率 
Pi 不 为 0 时 ， 自 身 转 移 就 会 有 发生， 但是, 这 样 的 自身 转移 没有 观察 的 意义 : 因为 指数 
分 布 的 无 记忆 性 , 直到 下 一 个 转移 剩余 的 时 间 是 一 样 的 ， 不 论 自 身 转 移 发 生 与 否 . 由 于 
这 个 原因 ， 我 们 忽略 自身 转移 ， 从 而 假设 


Pi 二 qii 二 0， 对 于 所 有 的 


例 7.14 一 台 运 转 中 的 机 器 会 一 直 工 作 ， 直 到 警告 信号 产生 . 从 开始 工作 一 直到 产生 
警告 信号 的 时 间 服 从 参数 为 1 的 指数 分 布 .产生 警告 之 后 ， 机 器 将 被 检修 ， 检 修 的 时 间 
服从 参数 为 5 的 指数 分 布 . 检修 结果 以 1/2 的 概率 将 机 器 维修 好 ， 此 时 机 器 将 恢复 正常 生 
产 ;而 另 一 个 可 能 的 结果 是 机 器 已 经 损坏 〈 概率 为 1/2) ， 机 器 将 送 去 修理 . 修理 时 间 
0 我 们 假设 前 面 提 到 的 随机 变量 都 是 相互 独立 的 ， 且 独立 于 检 
医 结 果 . 


令 状 态 1、2、3 分 别 表示 正常 工作 、 检 验 、 修 理 ， 转 移 速 率 是 = 1,ww = 5,v3 二 3 转移 
概率 矩阵 和 转移 速率 矩阵 表示 如 下 


0 1 0 ,| | 
P=|1/2 0 1/2|, @Q@= |5/2 0 5/2|. 
1 0 0 3 0 0 























图 7.20 例 7. 14 中 马尔 可 夫 链 的 阐述 . 弧 线 附近 的 数据 表示 转移 速率 名 


我 们 最 终 发 现 前 面 定义 的 连续 时 间 的 马尔 可 夫 链 具有 和 离散 时 间 马 尔 可 夫 链 类 似 的 马 
尔 可 夫 性 质 : 在 给 定 的 当前 状态 下 ， 未 来 独立 于 过 去 . 为 了 进 一 步 认 识 该 性 质 , 定义 
X(t) 表示 连续 时 间 马 尔 可 夫 链 在 时 间 t > 0 的 状态 , 且 注 意 它 在 两 次 转移 之 间 将 停留 
一 段 时 间 . 利用 指数 分 布 的 无 记忆 性 ， 可 以 推出 , 对 于 第 次 转移 时 间 区 和 第 n++1 
次 转移 时 间 Yn+i 之 间 的 任意 时 刻 t+ , 直到 下 一 个 转移 发 生 的 剩余 时 间 ht1 一 t 独立 

于 系统 已 经 在 目前 状态 所 停留 的 时 间 {一 六 步 推出 对 于 任意 时 刻 上 , 和 给 定 
六 [7T),T > t ], 独立 于 过 去 [随机 变量 

IT t 
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7 如 果 转 移 恰好 发 生 在 时 刻 + ， 记 号 只 (如 的 定义 有 些 不 清楚 . 通常 的 做 法 是 令 只 (如 为 恰好 发 生 转 移 之 后 的 状 
态 , 这 时 六 (Yn) 就 是 开 【( 


7.5.1 利用 离散 时 间 马 尔 可 夫 链 的 近似 


我 们 来 前 述 连续 时 间 马 尔 可 夫 链 和 对 应 离散 时 间 形 式 的 联系 . 这 个 联系 给 出 了 连续 时 间 
马尔 可 夫 链 的 男 一 种 描述 , 以 及 表示 稳 态 行为 的 平衡 方程 组 . 


取 定 一 个 小 的 正 数 5， 考 虑 离散 时 间 马 尔 可 夫 链 如 , 它 是 每 隔 一 小 段 时 间 5 观察 六 邮 
所 得 到 的 














Zn = X(Nn6), n=0,1,.…: 


实际 上 ， 根 据 六 出 的 马尔 可 夫 性 质 , 可 知 Zn 是 一 个 马尔 可 夫 链 (给 定 当前 状态 的 前 
提 下 ， 未 来 独立 于 过 去 ). 我 们 利用 记号 与 表示 Zn 的 转移 概率 . 











给 定 状态 Zn = 则 时 刻 n5 和 ln 十 1)5 之 间 发 生 转移 的 概率 近似 等 于 vii. 进一步 地 ， 
概率 Pi 表示 转移 到 下 一 个 的 状态 是 所 以 


Pi; 一 P{(Zni4i 一 j|Zn 一 1) = Vipijo 十 ol5) es qij0 十 ol5), 如 果 了 尖 1. 








其 中 0W6) 表示 随 5 变 小 时 的 无 穷 小 量 . 停留 在 状态 7 的 概率 是 [也 就 是 , 在 时 刻 n5 
和 ln 十 1)6 之 间 没 有 发 生 转移 ] 


Pi = PlZn+1 = i| Zn | >》 而 
J 





这 就 给 出 连续 时 间 马 尔 可 夫 链 如 下 所 述 的 另 一 种 描述 .。 


8 到 目前 为 止 ， 我 们 已 经 证 明 一 个 连续 时 间 的 马尔 可 夫 链 满足 这 些 性 质 . 相反 ， 也 可 以 证 明 如 果 使 用 这 种 描述 方法 ， 
i 一 ij 
可 以 证 明 : ”直到 从 状态 7 发生 转移 所 需要 的 时 间 是 指数 分 布 , 参数 是 J 了 .进一步 ,在 这 种 转移 已 经 发 
人 下 , 转移 到 状态 .7 的 概率 是 科 / i 二 Pij. 这 就 证 得 了 这 种 描述 方法 与 原始 的 方法 描述 的 马尔 可 夫 
2 2 


连续 时 间 马 尔 可 夫 链 的 另 一 种 描述 方法 


给 定 连续 时 间 马 尔 可 夫 链 的 当前 状态 i， 对 于 任何 7 了 去;， 单 位 时 间 5 之 后 的 状 
态 是 7 的 概率 是 



































































































































gGi70 = o({6). 
且 独 立 于 过 程 过 去 的 情况 . 
例 7. 14( 续 ) ”忽略 oo) 项 , 对 应 的 离散 时 间 马 尔 可 夫 链 Zn 的 转移 概率 矩阵 为 


1 一 0 0 
30 0 1 一 36 


例 7. 15 (排队 论 ) “在 一 个 通信 系统 中 到 达 缓 冲 器 的 信号 包 的 过 程 是 一 个 参数 为 A 的 
泊 松 过 程 . 信号 存放 在 容积 为 w 的 缓冲 器 里 ， 且 每 次 只 传输 一 个 信号 ， 但 是 , 如 果 缓冲 
器 里 面 的 信号 已 满 ， 新 来 的 信号 就 会 丢失 . 传输 一 个 信号 需要 的 时 间 服从 参数 为 4 的 
指数 分 布 . 不 同 信号 之 间 的 传输 时 间 是 相互 独立 的 ， 也 独立 于 所 有 间隔 时 间 . 


我 们 将 利用 连续 时 间 马 尔 可 夫 链 对 该 系统 建 模 , 状态 是 六 出 表示 t 时 刻 对 应 系统 中 
的 信号 数量 [如 果 六 (好 > 0, 那么 六 出 一 1 表示 队列 中 等 待 的 信号 数量 ， 有 一 个 信号 
正在 被 传输 ]. 当 新 信号 达到 ， 状 态 将 增加 1; 当 已 存 信 号 被 传输 ， 状 态 将 减少 1. 为 了 证 
明 六 (4) 确实 是 一 个 马尔 可 夫 链 , 我 们 利用 马尔 可 夫 过 程 的 另 一 种 描述 性 定义 , 并 且 同 
时 给 出 转移 速率 名 . 


首先 考虑 系统 中 为 空 的 情况 ， 也 就 是 状态 六 (4) 为 0 的 情况 . 从 状态 0 的 转移 只 有 当 新 信 
和 在 这 种 情况 下 ， 状 态 变 成 了 1. 因为 信号 的 到 来 是 一 个 泊 松 过 程 ， 所 















































P(X(t+6)= 1|X(t) =0)= M+o(5), 
和 ， 如果 了 = 1 


0， 否则 . 


接 下 来 ， 考 虑 系统 中 信和 号 满 的 情况 ， 也 就 是 状态 六 为 w 的 情况 . 状态 wm 的 转移 只 
有 当 现 有 的 一 个 信号 完成 传输 才能 发 生 , 传输 完成 后 状态 变 成 了 wrl. 因为 传输 所 用 的 
时 间 服 从 指数 分 布 (具有 无 记忆 性 )， 所 以 有 


P(X(t+6)=m—1|X(t) = m) = 16+ 0(6), 


4d07 一 

















HL， 各 站 一 1 才 一 1, 


0， ”其 他 . 


最 后 ， 考 虑 系统 状态 六 (t) 等 于 某 个 中 间 状 态 7 ,0 <i<m. 在 下 一 个 单位 时 间 5 中 ， 
新 信号 到 来 的 概率 是 Xi + of(5)， 使 得 状态 变 成 了 六 1 ,完成 一个 言 号 的 传输 的 概率 是 
16 + 0(6), 使 得 状态 变 成 了 六 1. [在 时 间 间隔 5 中 同时 有 新 信号 到 来 和 已 有 信和 号 的 传输 
完成 的 概率 是 与 52 同 阶 的 , 所 以 可 以 被 忽略 , 0(5) 的 其 他 形式 的 情况 也 美 似 处 理 ] 所 
以 


dmi 











P(X(t+6) =i—1X(t) =i) = 6 + 0(0), 


P(X(t+6)=i+1|X(t) =i) = 8 +o0(6), 
入 ， > 一 一 有 
0， 其他， 


参见 图 7. 21. 


入 入 六 入 
es HH i H 


图 7.21 例 7.15 中 的 转移 图 


7.5.2 稳 态 性 质 

现在 我 们 把 注意 力 放 在 连续 时 间 马 尔 可 夫 链 的 长 期 行为 上 , 重点 在 计算 当时 间 + 不 断 
增 大 时 ， 停 留 在 状态 7 的 概率 PLX = i) 的 极限 情况 . 我 们 通过 研究 对 应 的 离散 时 间 
马尔 可 夫 链 Zi 的 稳 态 概率 来 解决 该 问题 

因为 Z = X(n5)， 很 显然 如 果 了 (Zn jl 如 i) 的 极限 石 存在 的 话 ， 必 等 于 

P(X(D =jIX(0) = 基 的 极限 . 所 以 我 们 只 需 考虑 Z 的 稳 态 概率 ， 因 为 是 在 离散 时 间 
链 里 , 我 们 知道 因为 稳 态 概率 是 独立 于 初始 状态 的 , 所 以 我 们 只 需 假定 链 Za 只 有 一 个 
常 返 类 . 我 们 也 注意 到 马尔 可 夫 链 Zi 一 定 是 非 周期 的 ， 这 是 因为 自身 转移 概率 为 


五 ; 一 虐 一 5 》 qi 十 OU)， 


了 天 


当 5 很 小 时 ， 这 个 概率 为 正 数 ， 而 具有 非 零 自身 转移 概率 的 链 总 是 非 周期 的 . 
链 2 的 平衡 方程 组 有 以 下 形式 


























经 “对 于 所 有 的 


而 = Tpjj + 2 mep 
KA) 
= 7 ( 一 5》， gjk + 1 > TE( GEjO 十 o(5)). 
kj kj 








ee i 的 项 ， 再 除 以 5, 计算 当 5 趋 于 0 时 的 极限 , 得 到 平衡 方程 


Ti 》 di 一 》 MEQkY: 


Kz] i 


我 们 现在 可 以 给 出 链 Zn 的 稳 态 收敛 定理 . 


考虑 具有 单个 常 返 类 的 连续 时 间 马 尔 可 夫 链 .那么 , 状态 7 以 及 对 应 的 稳 态 概率 
"i 具有 如 下 性 质 . 


(a) 对 于 每 个 j 我 们 有 








im 了 人 划一 了 人) 一切 一 而 ， 对 于 所 有 的 工 


(b) 厂 是 下 列 方程 组 的 唯一 解 : 


Tj Dgix =》, NkGkj, J = 1 … ,m, 


kzj kj 
k=1 
(c) 另外 有 
本 对 于 所 有 的 非常 返 态 J 
村 对 于 所 有 的 常 返 态 . 


为 了 进一步 前 述 平衡 方程 组 , 我 们 把 "i 看 成 过 程 花费 在 状态 7 上 的 时 间 的 平均 长 期 
频率 . 那么 从 96 就 可 以 看 成 从 有 到 J 的 转移 的 平均 频率 (单位 时 间 内 , 转移 从 k 到 
7 的 平均 次 数 ). 所 以 平衡 方程 组 的 本 质 就 是 从 状态 7 开始 的 转移 的 频率 (方程 的 左边 
记 亏 zi9 月 等 于 进入 状态 J 的 转移 的 频率 (方程 的 右边 和 tz "hj ) . 


例 7. 14( 续 ) ”该 例子 的 平衡 方程 组 和 归 一 化 方程 为 








和 离散 时 间 的 情况 一 样 ， 这 些 方程 组 中 有 一 个 是 多 余 的 . 比如 说 , 第 三 个 方程 可 以 由 前 
两 个 方程 得 到 . 进一步 地 ， 得 到 唯一 解 

i 

~ 41’ A A 

所 以 ， 例 如 ， 如 果 我 们 让 过 程 长 期 转移 下 去 , 六 (4) 将 以 稳 态 概率 30/41 停 留 在 状态 1， 
且 独 立 于 初始 状态 . 


该 稳 态 概率 万 要 区 分 于 藤 入 的 马尔 可 夫 链 Xn 的 稳 态 概率 ji. 实际 上 ， 藤 入 的 马尔 
可 夫 链 An 的 平衡 方程 组 和 归 一 化 方程 为 


Tl 








出 结论 


SS 
em 


为 了 阐述 概率 7% 的 意义 ， 我 们 举例 说 明 , 如 果 让 过 程 长 期 转移 下 去 ， 到 达 状 态 1 的 转 
移 平 均 频 率 为 2/5. 














ke 仿冒 5 一 ”2 (也 束 是 ， 转移 到 达 状 态 1 的 次 数 和 到 达 状 态 2 的 次 数 相 当 )， 我 们 也 
有 > 72, 原因 是 过 程 倾向 于 在 到 达 状 态 1 时 多 花费 一 些 时 间 , 相对 于 花费 在 状态 2 上 的 
时 间 要 长 所 以 ， 给 定 一 个 时 刻 zt ,过 程 六 出 更 有 可 能 处 于 状态 1， 这 种 情况 是 典型 
的 , 两 组 稳 态 概率 ( i 和 元 ) 一 般 情 况 下 是 不 同 的 . 主要 的 例外 情况 是 ， 转移 速率 上 

对 每 一 个 7 都 是 一 致 的 , 参见 本 章 末 的 习题 . 


7.5.3 生 灭 过 程 


类 似 于 离散 时 间 的 情况 ， 生 灭 过 程 中 的 状态 是 线性 排列 的 , 转移 只 发 生 在 相 邻 状态 之 
间 ， 或 者 停留 在 原 处 . 正式 地 说 ， 我 们 有 


qi; = 0, 当 上 必 一 下 > 


在 生 灭 过 程 中 ,从 7 到 j 的 转移 和 从 J 到 7z 的 转移 的 长 期 平均 频率 是 相同 的 , 由 此 
推出 了 局 部 平衡 方程 组 

















ji 二 Tiqj， 对 于 全 部 的 2 
局 部 平衡 方程 组 与 离散 时 间 的 情况 具有 相同 的 结构 , 能 推出 类 似 形式 的 稳 态 概率 公式 . 
例 7. 15 ( 续 ) ”局 部 平衡 方程 组 形式 如 下 
TiA 一 Tri， 一 0,1…… ;7 一 1 


我 们 得 到 mH = pm 其 中 = AH 所 以 ,对 于 所 有 的 7 有 T= Prmo, 又 由 归 一 化 方程 
1= io mi 得 到 














于 是 稳 态 概率 为 


Ti 二 OO, 1=0.1,..… .,m. 
L 


7.6 小 结 和 讨论 


在 本 章 中 ， 我 们 介绍 了 具有 有 限 个 状态 的 马尔 可 夫 链 . 在 离散 时 间 马 尔 可 夫 链 中 ， 在 整 
数 时 刻 发 生 状 态 转 换 , 转移 概率 为 Py. 马尔 可 夫 链 区 别 于 一 般 随 机 过 程 的 核心 性 质 是 转 
移 概率 刀 的 性 质 , 在 当前 状态 为 的 条 件 下 ， 下 一 个 时 刻 为 状态 J 的 转移 概率 为 
Pi, 这 与 了 所 在 的 时 刻 是 无 关 的 ， 且 独 立 于 时 刻 以 前 的 状态 . 所 以 ， 给 定 当 前 一 个 状 
态 , 未 来 的 状态 与 过 程 的 过 去 状态 是 相互 独立 的 . 


从 现实 角度 看 建立 适当 的 马尔 可 夫 链 模型 从 某 种 意义 上 说 的 确 是 一 门 艺术 . 一 般 地 ， 我 
们 需要 给 出 足够 充分 的 状态 信息 , 使 得 当前 状态 能 反映 来 自 过 程 中 任何 能 联系 过 去 与 未 
来 相关 的 信息 . 在 满足 上 述 要 求 的 基础 上 ， 我 们 通常 需要 将 模型 变 得 尽量 简洁 , 避免 不 
必要 的 多 余 状态 . 


给 定 一 个 马尔 可 夫 链 模型 ， 这 里 有 几 个 有 趣 的 问题 . 


(a) 有 关 有 限时 间 上 过 程 的 统计 量 的 问题. 我 们 已 经 计算 过 过 程 经 过 任何 一 个 特定 路 径 
的 概率 , 通过 沿路 径 轨 迹 的 转移 概率 的 连 乘积 得 到 . 更 一 般 的 事件 是 由 一 些 相关 的 路 径 
组 成 , 因此 在 计算 这 些 事件 的 概率 的 时 候 只 需 将 与 事件 相关 路 径 的 概率 相 加 即 可 . 在 一 
些 情 况 下 ， 我 们 可 以 利用 马尔 可 夫 性 质 进 行 计算 , 从 而 避免 列举 与 事件 相关 的 所 有 路 
答 ， 例 如 ， 在 计算 a 步 转移 概率 的 时 候 , 可 以 和 用 查 普 昌 - 科 尔 克 这 罗 夫 方 程 进行 和 人 
计算 . 


(b) 有 关 马 尔 可 夫 链 的 稳 态 概率 的 问题 ， 为 了 解决 这 类 问题 , 我 们 对 马尔 可 夫 链 的 状态 
进行 分 类 ， 状 态 可 分 为 非常 返 的 和 常 返 的 两 类 . 马尔 可 夫 链 的 所 有 常 返 状态 的 集合 又 可 
以 划分 为 互 不 相交 的 常 返 类 , 使 得 在 同一 个 常 返 类 中 的 状态 都 是 相互 可 达 的 . 而 每 一 个 
需 滩 浴 久 可 以 区 分 为 周期 和 六 周期 的 两 舍 个 同性 砚 的 党 远大 马尔 可 夫 链 的 理论 的 中 心 
论 是 , 如 果 链 是 由 单个 非 周 期 的 常 返 类 以 及 加 上 几 个 可 能 的 非常 返 状态 组 成 的 , 那么 
状态 到 这 时 个 7 的 概率 三 4 在 时 间 趋 于 无 穷 大 时 是 收敛 的 , 其 极限 值 称 为 稳 态 概率 
"I， 这 个 极限 值 不 依赖 于 初始 状态 工 换 名 话说， 初始 状态 不 论 取 什么 值 ， 当 n 很 大 




















































































































时 , 对 Xn 的 统计 特性 没有 影响 . 通过 解 由 平衡 方程 组 和 归 一 化 方程 ; 组 成 的 
线性 方程 组 , 我 们 可 以 得 到 稳 态 概率 . 


(c) 有 关 马 尔 可 夫 链 的 状态 转移 性 质 的 问题 . 我 们 已 讨论 过 吸收 概率 (从 一 个 给 定 的 非 
常 返 状态 出 发, 最 终 进入 给 定 的 常 返 状态 的 概率 ), 以 及 平均 首 访 时 间 (假设 链 具有 单个 
常 返 类 , 一 个 特定 常 返 态 被 首次 访问 的 平均 时 间 ). 两 种 情况 下 , 我 们 都 证 明了 感 兴趣 的 
量 可 以 通过 求解 一 系列 线性 方程 而 得 到 唯一 解 . 


最 后 我 们 也 考虑 连续 时 间 的 马尔 可 夫 链 .在 这 类 模型 中 ， 给 定 当 前 状态 下 ,下 一 个 状态 
由 类 似 于 离散 时 间 的 马尔 可 夫 链 的 相同 机 制 所 决定 但 是 , 直到 下 个 转移 发 生 的 时 间 是 
指数 型 随机 变量 ， 参 数 只 依赖 于 当前 状态 . 连续 时 间 的 马尔 可 夫 链 在 许多 方面 可 以 类 比 
离散 时 间 的 马尔 可 夫 链 . 它们 具有 相同 的 马尔 可 夫 性 质 ( 在 给 定 当前 情况 下 ， 未 来 与 
过 去 独立 . ) 事 实 上 , 人 们 可 以 将 连续 时 间 的 马尔 可 夫 链 看 成 时 间 轴 上 进行 细 分 离散 化 的 
离散 时 间 的 马尔 可 夫 链 ， 建立 这 个 联系 后 , 连续 时 间 的 马尔 可 夫 链 与 离散 时 间 的 马尔 可 
























































夫 链 的 稳 态 特性 是 相似 的 : 假设 只 有 一 个 常 返 类 ， 那 么 处 于 任何 状态 的 概率 ， 当 时 间 
ee 个 稳 态 概率 ， 而 且 该 概率 不 依赖 于 初始 状态 . 稳 态 概 率 可 以 
通过 求解 平衡 方程 组 和 归 一 化 方程 得 到 . 














习题 
7.1 节 离散 时 间 的 马尔 可 夫 链 


1， 相 邻 两 个 顾客 陆续 到 达 一 个 机 构 的 时 间 间 隔 是 独立 同 分 布 的 随机 变量 序列 , 其 公共 
分 布 列 为 











0.2， 若 二 1， 

0.3， 若 大 = 3， 
p(k) = 

0.5， 若 天 = 4 

0, 其 他 ， 














构造 一 个 四 状态 马尔 可 夫 链 模型 来 描述 该 到 达 过 程 . 在 这 个 模型 里 , 其 中 一 个 状态 应 该 
与 到 达 发 生 的 时 间 相 对 应 . 


只 老鼠 在 走廊 里 移动 ， 走 万 里 有 2m 块 瓷砖 ,mm > 1. 在 次 砖 :了 1,2m 时， 老鼠 就 
以 等 衬 这 向 大 1) 或 向 右 ( i+1) 移 动 .在 次 砖 1 或 者 2m 时， 老鼠 就 必定 分 别 移 向 次 
砖 2 或 者 2w-1， 每 次 , 老鼠 走 到 次 砖 i < m 或 i> m 时 , 电子 设备 就 会 分 别 发 出 信号 了 
或 者 〖R .那么 由 信号 2 和 RR 组 成 的 序列 是 由 状态 2 和 RR 组 成 的 马尔 可 夫 链 吗 ? 


3， 考 虑 例 7.2 中 如 图 7. 2 所 示 的 wr4 情 况 下 的 马尔 可 夫 链 . 假设 过 程 以 等 概率 地 从 4 个 状 


态 中 的 任意 一 个 开始 , 当 马 氏 链 处 于 状态 1 或 状态 2 时 ， 令 Yn = 上 当 马 尔 可 夫 链 处 于 状 
态 3 或 状态 4 时 ， 令 jn =2， 那么 ,过 程 Yh 是 马尔 可 夫 链 吗 ? 


7.2 节 状态 的 分 类 

4， 一 只 蜘蛛 和 一 只 苍蝇 在 一 条 直线 上 以 单位 增 量 移动 , 蜘蛛 总 是 向 苍蝇 移动 一 个 单元 ， 
而 苍蝇 以 0. 3 的 概率 向 靠近 网 蛛 方 向 移动 一 个 单元 , 以 0. 3 的 概率 向 远离 蜂 蛛 方向 移动 一 
个 单元 ， 以 0. 4 的 概率 保持 在 原 地 不 动 . 蜘蛛 和 苍蝇 间 的 初始 距离 是 整数 ， 当 蜘蛛 和 苍 
蝇 到 达 同 一 个 位 置 时 , 蜂 蛛 就 捉 住 了 苍 晶 . 

(a) 构造 一 个 马尔 可 夫 链 描述 蜘蛛 和 苍蝇 之 间 的 相对 距离 . 


(b) 指出 状态 空间 中 哪些 是 非常 返 状态 ， 哪 些 是 常 返 状态 . 





















































5， 设 有 一 个 马尔 可 夫 链 ， 有 状态 1,2,… , 9. 转移 概率 如 下 ;pa = Pr = 1/2, 当 
i 关 1,6,9 时 , Pet 二 1， 且 Pe! = pat = 1 该 马尔 可 夫 链 的 常 返 类 是 有 周期 的 吗 ? 


6.# 常 返 状态 的 存在 性 证 明 : 在 马尔 可 夫 链 中 , 从 任意 一 个 给 定 的 状态 出 发 至 少 可 以 
到 达 一 个 常 返 状态 ， 也 就 是 说 , 对 于 任意 状态 却 在 从 7 出 发 可 以 到 达 的 状态 集合 A421) 
中 至 少 存在 一 个 常 返 状态 区 


解 固定 一 个 状态 zi 如 果 7 是 常 返 的 ， 此 时 每 一 个 7E 4W) 也 是 常 返 的 ， 结 论 成 

立 ， 如果 7 是 非常 返 的 , 此 时 就 存在 一 个 状态 ms 4A(i) 使 得 * 儿 44(21). 如 果 订 就 是 常 
返 的 , 那 我 们 就 已 经 找到 了 一 个 从 工 出 发 可 以 到 达 的 常 返 状 态 . 假设 2 是 非常 返 的 , 则 
必 有 “和 ?1， 因 为 若 不 然 ， 则 由 假设 4 sa6) 和 “4 而 了 工 与 又 相同 这 样 

就 得 到 i€ 4(i) 和 1&4(i) 这 两 个 相悖 的 结论 . 因为 是 非常 返 的 , 必 存 在 某 个 i2 使 
得 2 E41) 并 且 王 舌 42 特别 地 ,?2 E 4 如 果 i2 是 常 返 的 ， 则 结论 成 立 , 所 以 此 
时 假设 ?2 是 非常 返 的 ， 相 同 的 方法 可 以 证 得 入 22. 更 进一步 地 ， 我 们 必须 有 2 了 

这 是 因为 如 果 我 们 有 i2 = 则 将 得 到 2 E 44 = 4(i2) 的 结论 ， 和 假设 1 儿 志 (12) 相 矛 
盾 . 将 这 个 过 程 一 直 继 续 下 去 ， 在 第 & 步 时 , 我 们 将 得 到 一 个 可 以 从 状态 出 发 到 达 

的 常 返 状态 ?6， 或 者 得 到 不 同 于 之 前 所 有 状态 22，… 2-l 的 非常 返 状 态 . 因为 状态 
的 个 数 是 有 限 的 ， 因 此 , 常 返 状态 必然 会 最 终 达 到 |. 


7.*# 考虑 一 个 由 一 些 非常 返 状态 和 常 返 状态 组 成 的 马尔 可 夫 链 . 
(a) 证 明 : 存在 正 数 c>0 和 0<7”Y<1， 使 得 
P(X,， 是 非常 返 状态 |X0= cyY” 对 于 所 有 的 7 和 nn 三 1 成 立 .】} 

(b) 设 7 表示 使 得 Xx 到 达 常 返 状 态 的 第 一 个 时 刻 ns»， 证 明 : 这 样 的 一 个 时 刻 确实 
是 存在 的 [等 价 于 ， 以 概率 为 1 地 存在 一 个 时 刻 x (n 不 是 一 个 常数 ， 与 试验 结果 序列 
有 关 ) 使 得 X 为 常 返 状 态 ]， 并 且 ET] < cc， 
解 (a) 为 方便 起 见 ， 记 

qi(n) = PLX 是 非常 返 状 态 |Xo = 他 0. 
容易 证 明 ， 从 状态 了 出 发 , 一 定 可 以 找到 步 长 不 大 于 x 的 路 径 ( 这 里 w 是 指 状态 个 
数 ) ,这些 路 径 以 常 返 状态 为 终点 , 并 且 其 概率 为 正 . 这 些 路 径 不 可 能 以 正 的 概率 延长 到 
一 个 非常 返 状 态 . 这 样 ,在 计算 4 的 时 候 ， 要 排除 这 些 路 径 的 概率 ， 因 此 ， 有 结 


论 dom) 三 1 令 















































3= max gilm). 
t=1,2,.… ,m 


注意 ， 对 于 所 有 的 志 都 有 4(m) < 8 < 1 如果 到 时 刻 w 还 没有 到 达 一 个 常 返 状态 , 此 
事件 发 生 的 概率 至 多 为 5. 在 此 条 件 下 , 在 未 来 m 步 还 不 能 到 达 常 返 状态 的 条 件 概率 也 
同样 至 多 为 5, 也 就 是 说 4(2m) < 如 事实 上 , 我 们 可 以 将 这 个 不 等 式 形式 地 写 下 来 


qi(2m) = P(Xam 是 非常 返 状态 |Xo = i 


=  》， P(Xwm 是 非常 返 状态 |Xm=j,Xo=i)P(Xm=j|Xo=i) 
; 是 非常 返 状态 


二 > P(X 2 是 非常 返 状态 | 六 ; 三 DP(Xm = jlXo i) 
了 是 非常 返 状 态 

= »》 P(Xm， 是 非常 返 状态 |Xo = fj)P(Xm = jlXo = 人 
了 是 非常 返 状 态 


<8 和 P(Xn= jlXo=i) 
i 是 非常 返 状态 


=6P(X 是 非常 返 状 态 |Xo = 作 
< 有 
类 似 地 继续 下 去 ， 我 们 有 
qi(km) < 所 ， 对 于 所 有 的 7 和 大 二 1 
令 n 表示 任意 正 整 数 ，k 表示 使 得 km nn < (k+lm 的 整数 , 我们 有 
gi(n) < q(km) < PF =p (PU™) tm < ppY™m Yn. 
因此 ， 取 c= 5 ,7 = 58” 即 可 获得 想 要 的 关系 . 


OD 


P(4) < P(X 是 非常 返 状 态 ) 三 07”. 


因为 这 对 于 所 有 的 2 都 成 立 ， 并 且 因 为 7 < 1 我 们 必然 有 PL = 0 这 就 说 明 几 乎 可 
以 肯定 (概率 等 于 1) 第 一 次 到 达 常 返 状 态 的 时 间 7 是 有 限 的 .这 样 便 得 到 


oo 


E[T] = 》nP(Xn_1 是 非常 返 状态 , Xn 常 返 ) 


n=1 
< 》_nP(Xn-! 是 非常 返 状态 ) 
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其 中 ， 最 后 一 个 等 式 是 使 用 了 几何 分 布 均值 的 计算 公式 . 


8.# 常 返 状态 . 证明 : 如 果 常 返 状 态 已 经 被 访问 了 一 次 , 那么 在 将 来 它 被 再 次 访问 的 概 
率 等 于 1 (因此 ， 在 将 来 时 间 里 无 限 次 被 访问 的 概率 也 等 于 1). 提示 : 修改 马尔 可 夫 链 ， 
使 得 感 兴趣 的 常 返 状态 是 唯一 的 常 返 状态 , 然后 使 用 习题 7(b) 的 结论 . 


证 明 在 文中 己 经 指出 , 常 返 状 态 的 集合 可 以 分 解 成 若干 个 互 不 相交 的 常 返 类 , 不 同类 
的 状态 是 互 不 可 达 的 . 设 s 是 一 个 常 返 状态 , 并 假设 s 已 经 被 访问 过 一 次 ， 从 那 时 开 
始 , 可 能 的 状态 就 只 在 s 所 在 的 常 返 类 内 ， 因 此 ， 不 失 一 般 性 , 我 们 假设 只 有 一 个 常 返 
类 . 假设 目前 的 状态 是 某 个 i 去 5, 我们 想 要 证 明 ，s 保证 会 在 将 来 的 某 个 时 间 被 再 次 访 


问 . 


考虑 一 个 新 的 马尔 可 夫 链 ， 在 原来 的 转移 概率 矩阵 中 将 Pss 设 成 1, Psi 二 0, 1 去 5, 这 样 
从 s 状态 不 能 够 转移 出 去 . 对 其 他 状态 ' 了 去 5， 其 转移 出 去 的 概率 Pi 保持 不 变 . 显 
然 , s 是 新 链 的 常 返 状态 . 更 进一步 地 ， 对 于 任何 状态 i 关 5 在 原 链 中 从 7 到 s 都 有 

条 有 着 正 概率 的 路 径 (因为 s 在 原 链 中 是 常 返 状态 ). 同样 的 结论 在 新 链 中 也 成 立 . 而 
在 新 链 中 从 s 出 发 无 法 到 达 zj 所 以 对 于 新 链 中 的 每 一 个 1 去 5 都 是 非常 返 状态 . 通过 
习题 7 (b) 的 结论 ， s 在 新 链 中 将 以 概率 1 被 最 终 到 达 , 但 是 原始 链 在 s 被 第 一 次 到 
达 之 前 与 新 链 是 完全 等 同 的 ， 因 此 , 在 原 链 中 状态 s 保证 能 被 最 终 到 达 ， 重 复 这 个 证 
明 过 程 ， 我 们 可 以 得 到 ， s 保证 会 以 概率 1 被 无 穷 次 访问 . 


9.* 周期 类 . 考虑 一 个 常 返 类 中 证明 下 述 二 者 之 一 成 立 . 

(i) 中 的 状态 可 以 被 分 为 a > 1 个 不 相交 的 子 集 51,… , Sa， 使 得 Sk 中 的 所 有 状态 
下 一 步 都 转移 到 Sk+1 中 , 或 者 当 丰 =d 时 Sk 中 的 所 有 状态 下 一 步 都 转移 到 51 中 (在 
这 种 情况 下 , R 是 周期 的 ). 


(ii) 除了 有 限 个 时 刻 外 ， 对 所 有 的 时 刻 pn 和 所 有 的 i,j eR 都 有 "itm) > 0( 在 这 种 
情况 下 ，R 是 非 周 期 的 ). 
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提示 :， 固定 一 个 状态 并 且 设 qd 是 集合 8@= {nlratn) > 0} 中 元 素 的 最 大 公 因 数 . 如 
果 下 1 使 用 如 下 基础 数论 的 事实 : ”如 果 正 整数 的 集合 {91,02,…} 没有 除 1 以 外 的 公 
因数 , 则 除 一 个 有 限 集 外 的 任意 正 整 数 冯 均 可 以 表达 为 如 下 形式 : 

忆 一 说 ad 十 各 oo 十 十 有 ol 其 中 有 :大 为 某 些 非 负 整 数 ， 上 是 某 个 满足 二 >1 的 整 


证 明 固定 状态 ie R, 考虑 集合 @= {nlriln) > 0}. 设 g 是 集合 9 中 元 素 的 最 大 公 因 
数 . 首先 考虑 4 冯 1 的 情况 ， 对 于 =1,2,… ,d, 设 Sk 表示 对 于 某 个 非 负 整数 7 ,从 
状态 7 出 发 经 过 1d + 步 能 到 达 的 所 有 状态 的 集合 ， 假设 sE sk 并 且 Pss > 0. 因为 
s E 5Sk 所 以 对 某 个 2 从 状态 7 出 发 经 过 i++ 大 步 能 到 达 s, 也 就 是 说 我 们 从 状态 7 
出 发 经 过 1d+K+1 步 能 到 达 s. 这 就 证 明了 当 大 <d 时 s ES 当天 =d 时 

s E 31. 现在 只 剩 下 证 明 集合 51,"… ,Sa 是 互 不 相交 的 . 使 用 反 证 法 . 假设 存在 某 个 

大 和 大 ， 且 存在 s 使 得 sss 有 目 s€ Sk. 设 g 表示 一 条 从 s 到 7 的 正 概率 路 径 的 长 
度 . 从 7 出 发 ,我们 经 过 Id + 步 到 达 s, 再 经 过 g 步 返 回 i 这样 就 有 I&+K+9 属 
于 集合 9 , 也 就 是 说 gq 可 以 整除 下 十 4， 同 理 可 证 ，4 也 可 以 整除 六 二 4, 这 样 9 就 

可 以 整除 上 一刀， 但 是 由 于 1< | 一 <d 一 1 因此 得 到 矛盾 .9 













































































9 由 4 闫 1 可 导致 马尔 可 夫 链 的 常 返 类 是 有 周期 的 ， 并 且 周 期 为 a 这 个 性 质 与 i€ 民 的 取 法 是 无 关 的 , 即 从 一 
开始 随便 固定 一 个 状态 〈 例 如 取 定 了 去 让, 也 会 得 到 相同 的 结论 ， 一 一 译 者 注 





























现在 考虑 4&1 的 情况 ， 令 8 = {91,92,… 上 因为 这 些 都 是 从 7 出 发 再 回 到 z 的 正 概 
率 路 径 的 可 能 长 度 , 因此 有 具 有形 如 ?= 名 ai 十 用 a2 十 … 十 at 的 任何 整数 pn 也 在 集合 
9 里 (想得到 这 个 结论 ,用 名 乘 以 长 度 为 aa 的 路 径 , ho 乘 以 长 度 为 az 的 路 径 ， 
Re ) . 通过 提示 中 已 给 的 数论 事实 可 知 ,除了 有 限 多 个 正 整 数 以 外 , 集合 & 几乎 包含 
全 体 正 整 数 ， 即 存在 一 个 nz 使 得 


mi >0 对 所 有 的 > ni 成 立 . 


固定 某 个 了 关 ?， 且 设 g 是 从 7 到 长 度 最 短 的 正 概率 路 径 , 故 9<， 这 里 w 是 
链 中 状态 的 总 个 数 . 考虑 某 个 满足 n> 有 十 于 的 ,并 注意 到 n 一 9g>mi+m-g> mi 
这 样 , 我 们 就 可 以 经 过 一 4 步 从 了 出 发 回 到 它 自己 ,然后 经 过 g 步 从 7 到 工 因此 ， 
只 要 m>m+m 从 了 工 到 了 了 就 有 51>0 对 任意 j ER 成立. 这 个 结论 显然 对 任意 
7 都 成 立 . 故 结论 (ii) 成 立 . 


我 们 至 今 已 经 证 明了 题目 中 的 两 个 结论 至 少 一 个 是 成 立 的 . 这 两 个 结论 显然 不 能 同时 成 
立 , 这 是 因为 一 个 常 返 类 ， 要 么 是 周期 的 ， 要 么 是 非 周 期 的 , 两 者 不 能 同时 成 立 . 


为 了 完整 起 见 , 我 们 在 这 里 提供 上 面 用 到 的 数论 事实 的 证 明 . 我 们 从 正 整数 集合 
i 开始 ， 并 假设 它们 除了 1 外 没有 其 他 的 公 因数 . 我 们 定义 Y 表示 一 切 具 有 形 
式 1Kiai 的 正 整数 的 集合 , 其 中 后 表示 非 负 整数 . 注意 这 个 集合 在 加 法 运算 下 是 封 
闭 的 (WW 中 的 两 元 素 之 和 也 具有 这 种 形式 , 因此 必定 属于 办 ). 设 g 表示 W 中 两 不 同 元 
素 的 最 小 差 . 这 样 有 9 二 上 且 对 于 所 有 的 7 有 9 人 ai( 因 为 % 和 2as 都 属于 N ). 


假设 9 > 1 因为 {a1,0%2,…} 的 最 大 公 因数 为 1, 就 存在 某 个 mi* 不 能 被 g 整除， 于 
是 对 于 某 个 正 整数 7， 我 们 有 


















































Qi* 一 19 十 7 


其 中 余数 , 满足 0< 7 <4. 进一步 地 ， 从 & 的 定义 角度 来 看 , 存在 非 负 整数 
5 2, 局 ,… ,有 i, 入 使 得 











t t 
》， kia:; = > kiai+g. 
这 1 人 
将 上 式 两 边 同 乘 以 ]， 并 利用 方程 mw* = 19+m 得 到 


t t t 
(ki )a; = >》 (用 )ai 十 109 王 >》 (用 )ai 十 ai * 一 7 
i 一 1 t=} t=1 


这 就 证 明了 在 集合 W 中 存在 两 个 数 它们 的 差 为 zx. 因为 0<7< yg, 这 就 和 我 们 假设 g 
是 最 小 的 可 能 差 值 相 矛 盾 , 因此 也 就 证 明了 3 必须 等 于 1. 


既然 g=1, 就 存在 某 个 正 整数 x 使 得 ze M 并 且 z+1E. 我 们 将 要 证 明 , 每 一 个 大 
于 aaz 的 整数 ”都 属于 从 事实 上 ,通过 用 aa 去 除 2 我 们 可 以 得 到 半 = pol +m 其 
中 天 >7T， 且 余数 满足 0<7< a 我 们 将 2 改写 成 如 下 形式 


?一 Tlal m7)+ (rt+1l)r+(k or)a. 


因为 x 让 1、 al 都 属于 大 这 就 证 明了 n 是 W 的 元 素 和 ， 因 此 也 属于 加 这 样 就 
证 明了 我 们 的 结论 . 


7.3 节 稳 态 性 质 


10， 考 虑 例 7. 3 中 机 器 损坏 和 维修 的 两 个 模型 . 求 马尔 可 夫 链 含有 单个 非 周期 常 返 类 时 
bp 和 > 应 满足 的 条 件 , 并 在 这 个 条 件 下 求 出 稳 态 概 率 的 闭合 式 表达 式 . 


11， 一 位 教授 进行 的 测试 分 为 难 、 中 等 、 容 易 三 类 . 如 果 她 给 出 的 是 难 的 测试 ,那么 下 
一 次 测试 的 难度 将 是 中 等 难度 或 者 是 容易 的 , 并 且 这 两 种 难度 出 现 的 概率 是 相等 的 . 但 
是 , 如 果 她 给 出 的 是 中 等 难度 的 测试 题 或 者 是 容易 的 测试 题 , 则 下 一 次 测试 将 以 0. 5 的 概 
率 依然 保持 此 难度 , 以 0. 25 的 概率 分 别 采用 其 他 两 种 难度 的 测试 . 构造 一 个 合适 的 马尔 
可 夫 链 , 并 计算 稳 态 概率 . 


12. 阿尔 文 喜欢 在 每 个 星期 六 出 海 去 附近 的 小 咏 上 的 别墅 . 他 很 喜欢 钓鱼 , 只 要 天 气 好 ， 
他 会 在 来 回 小 岛 的 路 上 钓鱼 .但 是 , 在 来 回 小 岛 的 路 上 天 气 好 的 概率 只 有 bp, 并 且 独 立 
于 过 去 航行 的 天 气 情况 (所 以 天 气 可 能 在 去 的 时 候 很 好 , 但 是 回来 的 时 候 很 不 好 ). 如 果 

气 很 好 的 话 , 阿尔 文 会 带 着 他 n 文 渔 竿 中 的 一 支 ， 但 是 如 果 天 气 不 好 的 话 , 他 就 不 会 
随 吴 携带 渔 竿 . 我 们 想 求 出 在 给 定 一 段 来 小 岛 (或 者 从 小 岛 回 家 ) 的 旅途 中 , 天 气 很 好 但 
是 阿尔 文 因 为 他 的 渔 竿 都 在 另 一 个 房子 而 没有 钓鱼 的 概率 . 


(a) 计算 每 个 有 着 ntl 个 状态 的 合适 的 马尔 可 夫 链 , 并 计算 各 状态 的 稳 态 概率 . 
(b) 在 给 定 行程 的 条 件 下 , 求 阿尔 文 在 好 天 和 气 出 海 却 没有 带 渔 竿 的 稳 态 概率 . 








































































































13， 考虑 如 图 7. 22 所 示 的 马尔 可 夫 链 ， 我 们 将 转移 到 一 个 高 \ 低 ) 指标 状态 称 
为 “ 生 ”(“ 死 ”). 假设 在 我 们 开始 观测 这 个 链 时 它 就 已 经 平稳 了 ， 计 算 如 下 各 个 量 . 





0.3 0.2 
图 7. 22 习题 13 中 的 转移 概率 图 





(a) 对 于 每 个 状态 1， 求 当前 状态 是 7 的 概率 . 
(b) 求 我 们 观测 到 的 第 一 次 转移 是 “ 生 ” 的 概率 . 
(c) 求 我 们 观测 到 的 第 一 次 状态 变化 是 “ 生 ” 的 概率 . 1? 


10 “状态 转移 ”是 指 从 状态 7 转移 到 状态 但 是 7 与 /可 以 相同 ;“ 状 态 变化 ”是 指 从 状态 7 变化 到 状态 
大 这 时 状态 7 与 .一定 不 同 .一 一 译 者 注 


在 转移 是 “ 生 ” 的 条 件 下 , 求 在 我 们 观测 到 的 第 一 次 转移 之 前 过 程 位 于 状态 2 的 概 
































(e) 在 状态 变化 是 “ 生 ” 的 条 件 下 , 求 在 我 们 观测 到 的 第 一 次 状态 变化 之 前 过 程 位 于 状 
态 2 的 概率 . 


(f) 在 第 一 次 观测 到 的 转移 造成 了 状态 改变 的 条 件 下 , 求 第 一 次 转移 是 “ 生 ” 的 概率 . 
(g) 在 第 一 次 观测 到 的 转移 造成 了 状态 改变 的 条 件 下 , 求 第 一 次 转移 到 状态 2 的 概率 . 


14. 考虑 一 个 已 知 转移 概率 并 且 含 有 单一 非 周期 常 返 类 的 马尔 可 夫 链 . 假设 对 于 
n 二 500， 步 转移 概率 非常 接近 于 平稳 状态 概率 . 


(a) 求 PLAloo 二 二 1001 二 让 ,六 wpm = 二 中 X0 二 让 的 近似 计算 公式 . 
(b) 求 PlXi000 = 了 Aliol = 轧 的 近似 计算 公式 ， 


15， 挨 伦 费 斯 特 扩散 模型 .我 们 总 共有 zz 个 球 , 其 中 一 部 分 为 黑 球 ， 一 部 分 为 白 球 . 

在 每 一 个 时 间 点 上 , 我 们 或 者 以 概率 s0<e<DH 什么 也 不 做 , 或 者 随机 选 一 个 球 ， 使 

得 每 一 个 球 被 选中 的 概率 为 (1 一 Qj/m>0. 在 后 一 种 情况 下 ,我们 将 所 选 球 的 颜色 改变 

a 黑 的 变 成 白 的 ), 过 程 就 这 样 无 穷 地 重复 下 去 . 问 : 白 球 个 数 的 稳 态 分 
是 什么 ? 

















16. a 两 个 坛子 中 的 每 一 个 都 有 ww 个 小 球 . 22 个 小 球 中 ， 有 
Z 个 是 白 球 , w 个 是 黑 球 . 同时 从 两 个 坛子 中 拿 出 一 个 球 放 入 男 一 个 坛子 中 并 且 过 程 一 
直 持 续 下 去 ， 问 每 个 坛子 中 白 球 个 数 的 稳 态 分 布 是 什么 ? 


17.， 考虑 一 个 两 状态 (分 别 记 为 1 和 2) 的 马尔 可 夫 链 , 转移 概率 为 


有 11 = ] 一 QQ p12 王仁 ， 








Po2l 一 DB，p2 一 1 一 有 
其 中 m 和 了 满足 0<a<10<53<1 
(a) 证 明 : 链 中 的 两 状态 形成 了 一 个 非 周期 常 返 类 
(b) 使 用 归纳 法 证 明 ， 对 于 所 有 的 也 我 们 有 





了 a(l—a— 8)" pi a al—oa— 8)" 

十 一 -一 . Tr12(n) 一 EE 

十 有 CG 十 好 9 Qa+8 Qa++8 

3 3B(1l—a— 28)" a 31—a—8)" 
一 一 一 rn 让) 二 一 一 二 一 

a+ + a+8 Qa+8 


ri1(n) = 
a 








rol ln) = 


(c) 稳 态 概 率 mH 和 m2 是 多 少 ? 


18. MIT 的 停车 库 安装 了 一 个 磁卡 门 ， 但 不 幸 的 是 , 由 于 人 们 的 粗心 ， 门 非常 容易 出 现 
问题 . 具体 来 说 , 每 天 一 辆 车 撞 门 的 概率 为 p， 并 且 在 这 种 情况 下 就 需要 安装 一 个 新 门 . 
i 天 之 后 由 于 周期 性 的 维修 必须 进行 替换 . 问 : 门 更 换 频 率 的 长 期 期 
望 是 /人 >? 


19.# 稳 态 收敛 . 考虑 一 个 含有 单个 常 返 类 的 马尔 可 夫 链 , 并 且 假设 存在 一 个 时 刻 元 使 
得 : 对 于 所 有 的 7 和 所 有 常 返 态 的 7 























rij ln) > 0 
(这 和 假设 “ 常 返 类 是 非 周 期 的 ”是 等 价 的 ) . 我 们 想 证 明 : 对 于 任意 的 7 和 jj 极限 


im rijln) 





存在 ， 且 不 依赖 于 工 为 了 证 明 这 个 结论 , 我 们 需要 证 明 初 始 状 态 的 选择 没有 长 期 效 
应 . 要 量化 这 个 效应 , 我 们 考虑 两 个 不 同 的 初始 状态 7 和 k ,并 考虑 两 个 独立 的 马尔 可 
夫 链 -Xn 和 Yh ， 它 们 具有 相同 的 转移 概率 , 但 是 初始 状态 不 一 样 , So = 2 b= 二 让 令 
T= min{n|Xn = jn} 表示 两 个 链 第 一 次 到 达 同 一 状态 的 时 间 . 


(a) 证 明 存 在 正常 数 c 和 7 < 1， 使 得 
P(T > m) < cn 


(b) 证 明 如 果 在 时 刻 zn 以 前 菜 个 时 刻 ( 含  ) 两 个 链 的 状态 是 相同 , 则 它们 在 时 刻 了 
的 状态 概率 也 相同 ， 即 














P(X, = jlT) =P(Y, = j|T <n). 








(c) 证 明 对 所 有 的 六 六 K 太 及 都 有 1 中 一 Tij(W| 0. 提示 : 分 别 计算 在 两 事 
件 {>7wW 和 {了 Tn} 的 条 件 下 的 条 件 概率 . 


(d) 设 | n) = maxi rij(n), gy (n) = min;7 rijln) 证 明 : 对 所 有 的 nx 有 

qj; (n) < qj; (n 二 1) 过 qj (n 十 1) 过 q; (n). 
(e) 证 明 序 列 号 收敛 于 一 个 不 依赖 于 7 的 极限 . 提示 : 综合 (c) 和 (d) 两 部 分 的 结 
论 , 证 明 两 序列 转 () 和 外 WW) 是 收敛 的 ， 并 且 极 限 相同 . 


证 明 (a) 此 结论 Re oy Sh sR oA eal al ei 


的 , 设 7 是 基 个 党 到 状态 ， 定 义 “mw . 无论 现在 链 X 和 了 蒜 的 状态 是 什 
久 , 在 元 步 后 两 链 都 处 于 状态 7 的 概率 至 少 为 玉 这 样 ， 


P(T>75)<1— 8. 
类 似 地 ， 可 得 
PP 
P(T > kn) < (1— 8°)*, 
这 就 证 明了 
P(T>n)<eY' 
其 中 ,7= (1 一 让 c= (1 一 六). 


(b) 我 们 分 别 在 7 可 能 的 取 值 上 以 及 两 链 在 时 刻 7 时 的 共同 状态 7 下 取 条 件 化 , 使 
用 全 概率 公式 ， 我 们 有 


n mm 


p(X = < P(r = =DPrT=tN=lT<n 








t=0 [一 1 
nin mm 
二 >》 P(X = jlXi = 0)P(T =t,X=lT <n) 
t=0 i=1 
n mm 
==》 ri(n -tpP(T=t, X= 1T <n). 
t=0 i=1 


类 似 地 


P(Y, = j|T < 7n) = 2 ni n—tP(T =t,= [IT <n). 
t=0 1=1 








但 是 事件 {=tXt= 才 和 {T=t,Y=} 是 等 同 的 ,因此 具有 相同 的 概率 ， 也 就 是 说 
P(Xn = jlT < 7)=P(Y, = j|T < n). 





(c) 我 们 有 


rij(n) = P(Xn = 7)= P(Xn =jT < npP(T < n)+P(Xn = eS > n)P(T > n). 








rkj(n) 一 PP =) =P(Y =jT <nPT <n)+P(Y = j|T > n)P(T >n), 
将 上 述 两 式 相 减 ， 使 用 (bp) 部 分 的 结论 消去 右边 的 第 一 项 ， 我 们 得 到 
raj(n) —risj(n)| <|IP(Xn = jjT > n)P(T > n)—P(Y=jT > n)P(T>n)| 
<P(T>n) 


一 ,al 
OY 。 


(d) 通过 对 第 一 次 转移 的 状态 取 条 件 化 ， 使 用 全 概率 公式 , 我 们 得 到 如 下 查 普 曼 - 科 尔 
英 戈 罗 夫 方程 的 男 一 种 形式 


mm 


rij(n + 1) = >》_ Pikrkj(my) 
大 一 1 


使 用 这 个 等 式 ， 我 们 得 到 


gq; (7 n+ 1)= max rijln 十 1) = max 》 PikTEj(n) < mx pug} (n) = 
k=1 
q; (n). 


利用 对 称 性 可 得 不 等 式 宙 (中 多 人 "+, 由 定义 直接 可 以 得 到 多 (+) 和 轩 ("+ 


(e) 由 于 序列 当 to) 和 负 (Y 对 了 的 单调 性 , 当 n 一 ce 时 ， 人 
对 于 所 有 的 了 和 不等式 阿 四 一 ri 和 ec” 可 以 推出 归 加 ) 一 归 < . 令 

n -cc, 由 这 个 不 等 式 可 知 (中 和 轨 (4) 的 极限 是 一 样 的 . 令 页 表示 这 个 共同 的 极 
限 . 因为 曙 人 三 而 (三 攻 人 mo) 因而 (mn) 也 收敛 于 页 ， 并 且 极限 独立 于 工 


20. * 平衡 方程 组 解法 的 唯一 性 ， 考 虑 一 个 具有 单个 常 返 类 并 且 附 加 一 些 非常 返 状态 
的 马尔 可 夫 链 . 


(a) 假设 常 返 类 是 非 周 期 的 , 证 明 平 衡 方程 组 加 上 归 一 化 方程 存在 唯一 非 负 解 ， 提示 : 
人 稳 态 概率 的 解 , 使 得 它 是 Xo 的 分 布 列 并 且 考 虑 当时 间 趋 于 无 穷 时 的 
青 况 


(b) 证 明 在 (a) 部 分 的 唯一 解 的 结论 在 周期 性 的 常 返 类 的 情形 下 依然 成 立 . 提示 : ”引入 
自我 转移 的 马尔 可 夫 链 , 这 样 可 以 产生 等 价 的 一 些 平衡 方程 组 ， 再 运用 (a) 部 分 的 结论 . 

















证 明 (a) 设 五 … ,mm 是 稳 态 概率 , 即 三 to) 的 极限 . 它们 满足 平衡 方程 组 和 归 一 化 
方程 . 假设 存在 另 一 组 非 负 解 型 ,… :各 .我 们 通过 这 些 概率 建立 马尔 可 夫 链 , 因而 对 于 


所 有 的 有 PlXo 二 站 = 而 由 文中 的 讨论 ,我们 得 到 在 各 个 时 间 点 都 有 
P(Xn = 四 = 而 因此， 


元 一 lim PLXn = 刀 
下 一 CO 
mm 


= lim 》 iETEI (NR) 
N+00 


(b) 考虑 一 个 新 的 马尔 可 夫 链 , 其 转换 概率 三 如 下 给 出 : 
Pi = (1 — oa)pa t+a, Pi; = (1— a)pi, 了 天 1 
这 里 a 满足 0<a<1. 这 个 新 的 马尔 可 夫 链 的 平衡 方程 组 表达 式 为 


Tj = rj((1 - Qa)pyj 十 上) 十 >_nill — Q)pi;, 
i 











妈 


(1 —a)x; = (1— a) 》， MiPij. 


fl 


这 些 方式 和 原 链 的 平衡 方程 组 是 等 价 的 . 注意 ， 新 链 是 非 周 期 的 , 原因 是 自我 转移 有 正 
概率 . 这 就 为 新 链 建立 了 平衡 方程 组 的 唯一 解 ， 这 对 原 链 同样 适用 . 


21.* 平均 长 期 频率 的 解释 ， 考 虑 一 个 非 周期 的 单一 常 返 类 马尔 可 夫 链 ， 证 明 ， 
Ti = lim vy(n) i 
三 mw。 对 所 有 的 1 一 1… ,m 都 成 立 ， 
这 里 石 是 稳 态 概率 , v5(") 是 指 在 头 次 转移 中 从 状态 7 开始， 到 达 状 态 7 的 平均 
访问 次 数 ， 提 示 : 使 用 以 下 分 析 的 事实 如 果 数 列 a 收敛 到 实数 那么 定义 为 
bn = (1/n) ki19k 的 序列 bn 也 同样 收敛 到 a 


证 明 我 们 首先 证 明 对 于 所 有 的 从 六 及 有 











为 了 更 明白 这 点 ， 注 意 到 


wt) -| ae- 
k=]1 


这 里 素 是 随机 变量 ， 当 sx =7 时 取 1， 其 他 情况 下 取 0, 于 是 


Ell:|Xo 一 | 一 rij (kK). 


又 因为 


mi 收敛 到 而 , 这 表明 旺 f)/ 7 同样 收敛 到 "5, 这 就 是 我 们 希望 的 结果 


为 了 完整 性 ， 我 们 同样 证 明 在 提示 中 给 出 的 事实 ( 它 在 上 面 讨论 的 最 后 一 步 中 用 到 ). 考 
虑 一 个 序列 mm 收敛 到 a 并 设 n= (1/ 19k， 固定 某 个 e> 0 因为 an 收敛 到 a 
所 以 存在 某 个 no 使 得 对 所 有 的 有 > no ，ak < a+(e/2). ny 我 们 得 到 


.省 720 一 ?0 € 

b, = ak 十 一 x a a a 二 + 一). 
n 天 ‘ 
n n 2 


大 一 mo 十 1 





当 趋 于 无 穷 时 ， 上 式 右边 的 极限 是 “+ (e/2) 因此， 存在 某 个 mm 使 得 当 n 之 

时 ， 有 加 < a+e 运用 对 称 的 论证 ， 存 在 某 个 m2 使 得 当 n 之 na 时， 有 和 >a 一 < 
我 们 已 经 证 明 对 任意 的 > 0， 存 在 某 个 ms (比如 n3 = max{n1, na， 使 得 对 所 有 的 
有 之 7n3 ,有 bn—al<e 这 表明 pr 收敛 到 2 


22.* 二 重 随 机 矩阵. 考虑 一 个 非 周期 的 单一 常 返 类 马尔 可 夫 链 ， 且 转换 概率 矩阵 是 
二 重 随机 的 . 也 就 是 说 它 每 一 列 或 每 一 行 的 元 素 和 为 1， 因 此 有 


m 


Dpy=1, 7=1,:…,m 
i=1 


(a) 证 明 例 7.7 中 链 的 转换 概率 矩阵 是 二 重 随机 的 . 
(b) 证 明 其 稳 态 概率 是 





fj 一 一 了 一 1 … 了 7. 


(c) 假设 这 个 链 的 常 返 类 是 周期 的 .证 明 T==… = Tm = 1/m 是 这 个 由 平衡 方程 组 和 
归 一 化 方程 组 成 的 方程 组 的 唯一 解 . 在 例 7.7 的 条 件 中 当 z 是 偶数 时 讨论 你 的 答案 . 


证 明 (a) 很 明显 地 , 本 例 中 的 转换 概率 矩阵 的 每 一 行 和 每 一 列 的 和 均 为 1. 
(b) 我 们 有 








mm 





> Tpy 二 
因此 给 定 的 概率 = 1/m 满足 平衡 方程 组 , 它 必定 是 稳 态 概率 . 
(c) 令 (mi ,mm) 是 平衡 归 一 化 方程 的 任意 一 组 解 . 考虑 一 个 特别 的 二 使 得 对 于 所 


{ 碾 
有 的 7 有 i 三 令 4 二 页 .在 状态 时 平衡 方程 满足 


mm mm 


4 三 7 一 >》 7 < q DPi 二 4， 
i=1 i=1 

这 里 的 最 后 一 步 能 够 成 立 是 因为 转移 概率 矩阵 是 二 重 随 机 的 . 这 表明 以 上 的 不 等 式 事实 

上 是 一 个 等 式 即 


7 mm 


> TiPij = >》 gps 


t=1 t=] 





由 于 对 所 有 的 了 有 mi < 4 我 们 得 到 对 所 有 的 7 有 Ti = pi 因此 对 每 一 个 可 能 转 
移 到 ,7 的 状态 了 有 下 一 4 既然 所 有 满足 四 > 0 的 状态 亏 均 有 五 一 水 重复 这 一 过 
程 , 可 知 所 有 满足 Ps > 0( 此 处 满足 Py > 中 的 状态 也 均 有 丈 一 4 即 所 有 两 步 能 

到 达 状 态 7 的 状态 , 其 相应 的 稳 态 概率 为 9. 进而 我 们 发 现 对 于 每 个 状态 7 当 存 在 一 

个 从 了 到 了 的 非 负 的 概率 路 径 时 , 就 有 五 = 4， 因 为 所 有 状态 都 属于 同一 个 周期 类 ， 

因此 所 有 的 状态 7 都 有 这 一 特性 ， 对 所 有 的 之 元 都 是 一 样 的 . 因为 去 的 和 为 1， 所 

以 我 们 得 到 对 所 有 的 7 有 五 = 了 mm. 


例 7.7 中 如 果 w 是 偶数 ， 链 的 周期 是 2. 我 们 得 到 的 结果 表明 : "j= 1/m 确实 是 这 个 平衡 
方程 组 和 归 一 化 方程 组 成 的 方程 组 的 唯一 解 . 


23.# 排队 问题 .考虑 例 7. 9 中 的 排队 问题 ,但 是 假设 信息 的 到 达 和 发 送 的 概率 是 取决 于 
排队 的 状态 本 身 . 特别 地 , 在 每 一 段 时 间 里 ， 在 节点 处 有 7 个 信息 包 , 那么 以 下 三 种 情 

避 吊 全 有 二 种 大 全 

(i) 一 个 新 信息 到 达 , 发 生 的 概率 是 我们 假定 i<m 时 >0 而 bm=0. 

(ii) 一 个 现存 的 信息 发 送出 去 , 发 生 的 概率 是 路 当 i>21 时 >0, 当 声 0 时 4 =0 











(iii) 既 没 有 新 信息 到 达 ， 也 没有 信息 完成 传送 ， 发 生 的 概率 是 : 当 二 1 时 概率 为 
1 一 0; 一 di; 当 大 0 时 概率 为 1 一. 


计算 对 应 马尔 可 夫 链 的 稳 态 概率 . 


解 ” 我 们 引入 一 条 马尔 可 夫 链 ， 状 态 为 0，1 ..， 友 它们 分 别 对 应 在 节点 上 存放 的 信息 
总 数目 . 转换 概率 图 如 图 7. 23 所 示 . 


= ho 1— b 人 0 = 三 dm—1 es 0 











dl un d 
图 7.23 习题 23 中 的 转移 概率 图 


与 例 7. 9 类 似 ， 局 部 平衡 方程 组 如 下 : 


nibi= Nidit, i1=0,1,.… ,mo—1. 


因此 我 们 有 7iti = Pimi， 其 中 


因此 对 i=1,…,m 有 = (po…pPi-1)mwo. 再 由 归 一 化 方程 1= mw 十 而 十 … 十 7im, 我 们 
得 到 


1 = Amoll + po popl + + Po pm-_1), 


由 此 得 到 
|! 
71 一 一. 
1 十 而 十 mp 十 十 ml 
其 他 的 稳 态 概率 是 
PoO*** Pi-l 
WE OO 
1+ pottpPopit+… 二 popm-l 





24.* 平衡 方程 之 间 的 相依 性 ， 对 于 前 m1 个 平衡 方程 j= 全 17Pijj 一 1… ,m1 
， 证 明 将 它们 加 起 来 ， 则 能 得 到 最 后 一 个 方程 mm = 全 1 mpem， 
证 明 把 前 wl1 个 平衡 方程 加 起 来 ， 我 们 得 到 


m—1 m—l1 mm 


7j = 2 2 mkpkj 


j=1 j=1 k=1 


二 Tm 十 Tk 一 y TkEPEkMm: 


k=l k=1 
这 个 方程 和 最 后 一 个 平衡 方程 "m= k=-17™Pkm 是 等 价 的 . 


25.* 局 部 平衡 方程 我 们 给 出 一 个 非 周期 的 单一 常 返 类 的 马尔 可 夫 链 ， 假 设 
mm 是 下 面 的 局 部 平衡 和 归 一 化 方程 组 的 一 组 解 . 


MiPii = Typi, 1,j = 1,.…,m, 








mm 


> i1= 1,.…,m. 


i=1] 


(a) 证 明 五 是 稳 态 概率 . 

(b) 利用 27 之 间 的 平均 长 期 转移 频率 的 意义 来 解释 方程 "iPi = MiPii 的 含义 . 
(c) 构造 一 个 例子 , 使 得 局 部 平衡 方程 组 不 满足 稳 态 概率 . 

解 (a) 把 局 部 平衡 方程 "iPi = WPii 对 下 标 7 相 加 ， 得 到 














mm mm 


》 MiPi; = 》 Tjpi = T= 1, 7 
i=1 


i=1 
因此 二 1… 7) 满足 平衡 方程 . 所 以 它们 就 等 于 稳 态 概率 . 
(b) 我 们 知道 iPj 可 以 解释 为 从 状态 7 到 状态 .J 的 平均 长 期 频率 , 所 以 局 部 平衡 方 


程 表明 从 一 个 状态 到 男 一 个 状态 的 转移 , 其 长 期 平均 频率 与 反方 向 转移 的 长 期 平均 频率 
是 相同 的 (这 个 性 质 也 叫 作 链 的 时 逆 性 ). 


(c) 我 们 构造 有 三 个 状态 的 一 个 例子 . 设 状态 为 1、2、 3.， 同 时令 

p12 > 0,P13 > 0,P2al > 0,p32 > 0， 同 时 其 他 转移 概率 均 为 0. 这 条 链 有 一 个 非 周 期 的 单一 常 

Ss 0 0 0 但 逆转 移 频率 
期望值 是 0. 


26. #* 抽样 马尔 可 夫 链 .考虑 一 个 马尔 可 夫 链 Xn， 其 转移 概率 是 桓 ， 记 (中 是 7 
步 转移 概率 . 


(a) 证 明 对 所 有 的 nn 三 1 以 及 i 三 1, 我 们 有 








mm 


rij(n+/) = Drix(n)re(). 


= 
(b) 假设 有 一 个 非 周 期 的 单一 常 返 类 . 我 们 对 这 条 马尔 可 夫 链 所 有 每 隔 7 个 转移 取样 
由 此 得 到 过 程 %， 其 中 3 = Xin. 证 明 这 个 取样 过 程 能 用 一 个 非 周 期 的 单一 常 返 类 马 
尔 可 夫 链 刻画 , 而 且 转 移 概率 为 "5(7) 
(ce) 证 明 (b) 部 分 中 的 马尔 可 夫 链 和 原 过 程 有 同样 的 稳 态 概率 . 
证 明 (a) 我 们 在 X 的 条 件 上 使 用 全 概率 定理 . 我 们 得 到 


rij(n 十 由 一 P(Xn+ = jlXo = 





= _ P(Xn = Xo =i)P(Xnn = jlXn = k, Xo 一 外 
大 一 | 


= D>_P(Xn = HXo =i)P(Xnt = jlXn = A) 
k=1 


mm 


一 》 rik(njrkjifD)， 
一 


在 第 三 个 等 式 中 我 们 用 到 了 马尔 可 夫 性 质 . 


(b) 因为 Xn 是 马尔 可 夫 链 ， 所 以 ， 在 给 定 Xm 的 条 件 上 , 那么 过 程 的 过 去 (大 < in 
时 的 状态 Xe 与 将 来 的 状态 (大 < In 时 的 状态 Xk ) 是 独立 的 . 这 表明 给 定 的 好， 过 程 
的 过 去 (大 < 时 的 状态 Xk ) 与 其 将 来 (上 >n 时 的 状态 Xk ) 是 独立 的 . 因此 Yh 有 马 
尔 可 夫 性 质 . 又 由 对 Xn 的 假设 ， 存 在 一 个 时 间 元 使 得 。 对 所 有 的 n 三 元 所 有 的 
状态 7 以 及 所 有 的 在 Xn 的 单一 常 返 类 R 中 的 状态 有 均 有 


P(X, = j|Xo =i) > 0. 








这 表明 

P(Y, =j|% =i)>0 
对 所 有 的 nn 三 元 、 所 有 的 7 了 以 及 所 有 的 i ER 成立. 因此 过 程 次 有 一 个 非 周期 的 单 
一 常 返 类 . 
(c) 过 程 Xn 的 2 步 转换 概率 三 如) 收敛 到 稳 态 概率 万. 过 程 次 的 2 步 转换 概率 
形式 为 (1?)， 同 样 收敛 到 页 . 这 表明 页 是 过 程 3 的 稳 态 概率 . 


27: 从 由 二 非 局 期 的 单一 常 返 类 马尔 可 夫 链 Xn, 考虑 一 个 新 的 随机 变量 序列 ， 序 
列 在 时 刻 n 时 状态 为 (Xn-1, 六 ny. 新 链 的 状态 是 原 链 的 状态 再 加 上 前 一 个 时 刻 的 状态 


(a) 证 明 新 链 的 稳 态 概率 是 














1i; = MiPpij, 
这 里 i 是 原 链 的 稳 态 概率 . 


(b) 现在 设 新 的 马尔 可 夫 链 是 这 样 定义 的 : 在 时 刻 的 状态 为 (Xn-k, 六 n-k+t1,…… ,六 n) 
, 其 状态 和 原 链 的 连续 £ 步 转移 建立 起 联系 . 将 (a) 的 结论 推 产 到 这 个 新 的 马尔 可 夫 链 . 


解 (a) 对 新 链 的 每 一 个 状态 心力 ， 我 们 有 

















P((Xn_1, Xn) 一 (让 )) = P(Xn_1 = P(Xn = j|Xn-1 = 7) = P(Xn-1 = 
1)pij. 
因为 马尔 可 夫 链 An ee lia 常 返 类 ， 并 且 对 所 有 的 jz, PlXn-1=) 收敛 





到 稳 态 概率 元 这 表明 PIUAnAn = 人 7 收敛 到 TiPj， 这 同样 是 (i,j) 的 稳 态 概 
率 . 


(b) 使 用 乘法 法 则 ， 我 们 得 到 
EN 本 bs ) = (io, ed ,2k)) 一 P(Xn_k = 0) Pioi “Pic_uic: 


因此 ， 与 (a) 部 分 相 类 似 的 讨论 ， 状 态 (i0,… , 认 ) 的 稳 态 概率 为 ToPioiuin-si. 
7.4 节 吸收 概率 和 吸收 的 期 望 时 间 


28， 某 系 有 了 门 课 , 每 一 学 年 学 生 将 课程 难度 从 1 到 wm 进行 排名 , 其 中 排 w 的 最 难 . 但 
是 这 个 排名 是 完全 随机 的 . 因此 ， 每 一 学 年 任意 一 门 课程 的 排名 的 分 布 列 是 1,… ,mm 
上 的 均匀 分 布 \ 但 是 ， 两 门 课程 的 难度 排名 不 可 能 相同 )， 某 教授 只 记 住 他 教 过 的 课程 
中 难度 最 高 的 排名 . 


(a) 求 这 个 教授 记 住 的 排名 的 马尔 可 夫 链 的 转移 概率 . 
(b) 求 第 返 状 态 和 非常 返 状 态 . 











(c) 给 定 第 一 学 年 他 拿 到 第 7 名 课程 的 条 件 下 , 求教 授 拿 到 最 高 排名 课程 的 期 望 年 数 . 
29. 考虑 图 7. 24 中 的 马尔 可 夫 链 . 稳 态 概率 如 下 : 











图 7. 24 习题 29 中 的 转移 概率 图 

假设 过 程 在 第 一 次 转移 前 是 状态 1. 

(a) 经 过 六 次 转移 后 过 程 状态 是 1 的 概率 是 多 少 ? 

(b) 求 过 程 重 新 回 到 状态 1 的 总 转移 次 数 的 期 望 值 和 方差 . 





(c) 系统 中 的 转移 1000 次 之 后 的 状态 既 不 与 转移 999 次 后 的 状态 相同 ， 也 不 与 转移 1001 
次 后 状态 相同 ， 求 该 事件 概率 的 近似 值 . 


30.， 考虑 图 7. 25 中 的 马尔 可 夫 链 . 








图 7.25 习题 30 中 的 转移 概率 图 


(a) 确定 非常 返 状态 和 常 返 状态 . 同样 , 将 常 返 状 态 划 分 为 常 返 类 ， 如 果 有 周期 的 话 ， 
也 将 其 指明 . 


(b) 在 状态 1 开始 时 是 否 存 在 稳 态 概率 ， 如 果 有 ， 请 确定 其 值 . 

(c) 在 状态 6 开始 时 是 否 存 在 稳 态 概率 ， 如 果 有 ， 请 确定 其 值 . 

(d) 假设 过 程 在 状态 1 开始 ， 我 们 在 它 到 达 稳 态 时 开始 观察 . 
(i) 在 我 们 观察 到 第 一 次 转移 时 , 求 状态 增加 1 的 概率 . 


(ii) 在 我 们 观察 到 第 一 次 转移 状态 是 增加 1 的 条 件 下 , 求 观察 到 过 程 转移 到 状态 2 
时 的 条 件 概率 . 


(i 放 ) 在 我 们 第 一 次 观察 到 状态 变化 时 ， 求 状态 增加 1 的 概率 . 
(e) 假设 过 程 从 状态 4 开始 . 
(i) 对 每 一 个 常 返 类 , 确定 我 们 最 终 达 到 每 一 类 时 的 概率 . 
(ii) 求 过 程 第 一 次 达到 常 返 类 时 的 转换 总 次 数 的 期 望 值 . 
31.* 吸收 概率 . 考虑 一 个 马尔 可 夫 链 ， 其 状态 要 么 是 非常 返 的 , 要 么 是 吸收 的 . 固定 


个 吸收 状态 s. 证明 从 状态 7 开始 最 终 达 到 s 状态 时 的 概率 ai 是 以 下 方程 组 的 唯 
解 . 



































Qa =1, 
ai =0, 对 所 有 的 吸收 仿 i 冯 s， 
Qi 二 27-1PiyQ;， 对 所 有 的 非常 返 状态 i 


提示 : ”在 证 明 解 的 唯一 性 的 时 候 , 采用 反 证 法 : 如 果 这 里 有 两 个 解 ， 找 到 一 个 满足 它 
们 差 的 方程 ,然后 说 明 这 个 方程 只 有 和 零 解 . 





证 明 在 本 书 中 ， 通 过 全 概率 定理 , 已 经 指出 ai 满足 这 些 方程 .为 了 证 明 唯 一 性 ， 令 
站 再 令 页 = 届 一 qi 用 4 表示 吸收 状态 集合 . 由 于 对 所 有 Js 4 有 外 =0 
们 得 到 


0; 一 >》 5 一 >》 Dj 
各”” 的 ”对 所 有 的 非常 返 状态 7 成 立 . 
把 这 个 关系 套用 w 次 ， 我 们 得 到 


0i 一 > Pi 》 Pjija Pi Oh: 
jm¢A 


办 人 J2 玫 4 





因此 


[61| < Piji bm Pijijz 4 Pijm 1jm " |5;,| 
Jj1¥4 jz¥41 Jm¥4 
= P(X1 ¢ A,:… ,Xm ¢ A|X0o = 7)- | 
< P(X1¢A,.… ,Xm ¢ A|Xo = 71): max |5jl. 
L | jE4 
以 上 关系 对 所 有 非常 返 状 态 7 均 成 立 , 所 以 
max |6,| < 8: max |d,|, 
max [5] < Bmax [5 
这 里 
3 = P(XI 人 A ,Xm 人 A|Xo = 12). 


注意 5 < 1， 因 为 不 管 初始 状态 是 什么 , Xm 被 吸收 的 概率 是 正 的 . 因此 maxj#415|=0, 
a i 了 有 对 = 到 对 所 有 的 吸收 了 我 们 有 乌 = 久 所 以 对 所 有 
J 了 全 = i. 


32.# 多 重 常 返 类 . 考虑 一 个 有 多 个 常 返 类 的 马尔 可 夫 链 , 当然 还 有 一 些 非 常 返 状态 . 
假设 所 有 的 第 返 类 都 是 非 周期 的 . 


(a) 对 任意 非常 返 状态 盖 令 ml 则 是 从 7 开始 到 达 第 K 个 常 返 类 中 状态 的 概率 . 推 
导 关 于 qilk) 的 方程 组 . 

(b) 证 明 每 一 个 n 步 转 换 概 率 态 \W 都 收敛 到 一 个 极限 , 并 讨论 如 何 计算 这 些 极限 . 
解 (a) 我 们 引入 一 条 新 的 只 有 非常 返 状态 和 吸收 状态 的 马尔 可 夫 链 . 非常 返 状态 对 应 
原 链 的 非常 返 状 态 ， 而 吸收 状态 对 应 于 原 链 的 常 返 类 . 新 链 的 转移 概率 区 表示 如 下 : 
如 果 7 和 J 是 非常 返 状 态 ， 则 请 王 Pi， 如 果 7 是 非常 返 状 态 , K 对 应 常 返 类 , 则 
Pi 是 7 在 原 链 中 到 达 常 返 类 中 所 有 状态 的 转移 概率 的 和 . 


所 求 的 概率 il 是 新 链 中 的 吸收 概率 并 由 以 下 公式 给 出 : 


























(hk) = Bin 十 5 各 yay( 司 ， 对 所 有 的 非常 返 状 态 成 立 . 
外 非常 返 

(b) 如 果 7 7 和 了 是 常 返 态 但 不 属于 同一 类 , "i(7) 总 是 9， 如果 7 和 J 是 常 返 态 且 
属于 同一 类 , 考虑 由 这 个 常 返 类 的 状态 则 马尔 可 夫 链 . 原 马 尔 可 夫 链 的 
rij(n) E 与 新 的 : 马尔 可 夫 链 的 (WY 是 相同 的 . 在 新 的 马尔 可 夫 链 中 , 万 (2) 收敛 到 状态 J 
的 稳 态 概率 . 如 果 了 了 是 非常 返 状 态 , 55(t2) 收敛 到 0， 最 后 如 果 7 是 非常 返 状态 ，j 是 
常 返 的 , 则 总 (WY 收敛 到 以 下 两 个 概率 的 乘积 : (1) 从 开始 过 程 到 达 J 所 在 的 常 返 
类 的 概率 ; (2) 在 开始 状态 在 J 的 常 返 类 的 条 件 下 ， 过 程 到 达 .7 的 稳 态 概率 . 


33.* 平均 首次 到 达 时 间 . 考虑 一 条 单一 常 返 类 的 马尔 可 夫 链 ， 记 s 是 固定 的 常 返 
状态 . 证 明 下 列 方程 组 


























mm 


t=0， 在 =1+》_ py; 
j=1 对 所 有 的 ?去 5 


是 平均 首次 到 达 时 间 满 足 的 方程 ， 且 只 有 唯一 解 ， 提示: 在 证 明 解 的 唯一 性 的 时 候 ， 
0 考 卡 两 组 解 之 差 , 找到 使 差 满 足 的 一 组 方程 . 并 证 明 这 组 
方程 零 解 


解 记 上 所 是 首次 到 达 7 的 平均 时 间 ， 利 用 全 期 望 定理 , 可 以 证 明 它 满足 题目 中 的 方程 
组 . 现在 只 需 证 明 解 的 唯一 性 . 为 了 证 明 唯 一 性 , 令 所 是 男 一 组 解 .对 所 有 ' 冯 5 


Ey yy 
两 者 相 减 ， 我 们 得 到 
0; 一 2 


这 里 5 = 去 一 在 将 这 个 等 式 连 续 套 用 wm 次 ， 得 到 


此 三 = 2 了 人 > Pjm_1jm © jm 
zs 7 jm#s 
因此 ， 对 所 有 的 i 关 5 
S| < 2 Pi 2 1 mpx | 
六 天 s 加 天 5 
= PU 5 ,Km #5|Xo = 71): Inax|5j|. 
了 


另 一 方面 ; 我 们 有 EL 天 7 二 mw 地 0 1. 这 是 因为 从 任意 状态 开始 s 能 在 
尺 步 内 达到 的 概率 为 正 . 这 表明 5 必须 是 


34.# 平均 常 返 时 间 和 平衡 方程 组 . 考虑 一 条 单一 常 返 类 的 马尔 可 夫 链 , 记 s 是 固 
定 的 常 返 状 态 . 对 任意 状态 i， 令 


Pi 三 [在 相 邻 两 次 访问 状态 s 之 间 访 问 状 态 7 的 次 数 ]. 
这 里 规定 Ps = 1. 
(a) 证 明 对 所 有 的 i， 我 们 有 














mm 


应 一 >》 prpri. 
大 一 1 


(b) 证 明 数 值 


Ti 一 一 ，12 一 1 ,771 


的 总 和 为 1 且 满 足 平衡 方程 组 , 这 里 ts 是 s 的 平均 常 返 时 间 ( 从 s 开始 第 一 次 回 到 s 
的 期 望 转移 数 ). 


(c) 证 明 如 果 五 ,mm 是 非 负 的 , 满足 平衡 方程 组 且 和 为 1， 则 
2 基 祝 泛 志 
0， 若 i 是 非常 返 状 态 . 


这 里 专 是 7 的 平均 常 返 时 间 . 
(d) 证 明 (b) 部 分 的 分 布 是 满足 平衡 方程 组 的 唯一 概率 分 布 . 


注意 : 本 题 不 仅仅 是 提供 了 满足 平衡 方程 的 概率 分 布 的 存在 性 和 唯一 性 的 另 一 种 证 明 ， 
也 为 稳 态 概率 和 平均 和 常 返 时 间 之 间 建 立 了 一 种 再 观 的 联系 ， 主要 思路 是 把 整个 过 程 分 割 
成 “ 圈 ”, 每 当 常 返 状 态 s 被 访 问 , 那么 一 个 新 较 就 会 开始 . 状态 s 的 稳 态 概率 就 可 
以 解释 为 访问 状态 s 的 长 期 的 期 望 频率 ， 长 期 的 期 望 颍 率 与 两 次 连续 访问 s 之 间 的 
平均 步 数 ( 即 平均 常 返 时 间 ) 成 反比 例 . 参见 (c)， 进一步 地 ， 在 茶 一 个 圈 内 ， 如 果 一 个 
状态 7 能 被 访问 到 的 期 望 频率 是 另 一 个 状态 .7 的 两 倍 ， 那 么 ， 状 态 7 的 长 期 期 望 频 
| mi 也 应 该 是 I 的 两 倍 . 因此 ， 稳 态 概率 i 应 该 和 在 一 圈 中 期 望 访 问 次 数 Pi 成 比 
列 . 


解 (a) 考虑 马尔 可 夫 链 Sr， 初始 状态 Xo = 5. 我 们 首先 证 明 对 所 有 的 7 有 

















DO 
pi= 2 P(X 关 s , Xn-1#s, Xn=i). 
n=l 


为 了 验证 这 个 公式 ， 我 们 首先 考虑 1 疼 5 的 情况 , 令 fn 是 随机 变量 ， 如 果 
六 1 天 5,"… ,六 n-1 玫 5,Xn 二 7 则 取 值 为 1， 否 则 取 0. 因此 在 访问 状态 s 前 访问 状态 1 





的 次 数 为 志 过 1 五 ， 因 此 世 
11 下 面 将 用 至 到 无 穷 和 运算 和 期 望 运算 的 可 交换 性 , 现在 来 证 明 这 个 事实 . 对 任意 


的 

5 [>| -= + 二 可 - Sate| "| 
" n=1 n= 

令 了 是 序列 {X12，……} 中 第 一 次 等 于 的 时 记 2 


| > | P(T =#t) s | ar eer 
n 二 kk 十 1 t 一 KK 十 2 n= 二 kk 二 1 t=k+2 


归 估 平均 常 返 时 间 t=1tP(T = 四 是 有 限 的 ， 当 下 二 00 时 ,了 二 kt2 (T= 的 极限 等 于 0， 从 而 
E [npri ln] 人 这 样 , 当天 -全 oO 时 


E > |- 2, El[I,]. 





k> 0, 



























































pi = > a = DE = DP ,A 
n=l1 n=1 n=1 


当 i= s， 对 不 同 值 的 as， 事 件 
{X1 #5, ,Xn_1 #5, Xn = s} 
构成 样本 空间 的 一 个 分 割 . 因此 ， 


就 完成 了 我 们 声明 的 证 明 . 
我 们 下 一 步 对 nn 三 2 的 情况 使 用 全 概率 公式 ， 
P(X1 #5, ,Xn 1#s, Xn=i)= > P(Xi1 #8,.…. ,Xn_2 #5, Xn_1 = 
大 )Pki. 
因此 ， 


应 =>_ P(X 5, ,Xn_1@FA 5s, Xn=1) 


一 Psi 十 和 P(X1 天 ss ,Xn-1 #5, Xn = 1) 
2 


n=2 


=psi + YY PX As , Xana #5, Xn = k)pki 


n=2 ks 


一 Psi 十 pr Pl (XI 天 5 ;六 n_2 天 5, Xn-l > 六) 


ks n=2 


一 psPsi 十 》 PHiAk 


ks 


mm 


一 > 和 PEDPRi: 
大 一 1 


(b) 用 (a) 部 分 建立 的 关系 两 边 同 时 除 以 ， 可 得 


ni 一 》 TEDPRi, 


k=1 


这 里 一 pi/ 从 因此 元 是 这 个 平衡 方程 组 的 解 . 进 一 步 地 , mi 是 非 负 的 ， 显 然 
ZE12i=t 从 而 2i=1Ti=1， 因此 (na ,mn) 是 一 个 概率 分 布 . 


(c) 考虑 一 个 满足 平衡 方程 组 的 概率 分 布 mi，…… ,Tm)， 固 定 一 个 常 返 状态 s, 令 不 是 
5 的 平均 常 返 时 间 , 并 令 所 是 从 不 是 s 的 状态 7 到 状态 s 的 平均 首次 到 达 时 间 . 我 
们 将 证 明 ms 上 = 工事 实 上 ， 我 们 有 


下 


js 
茵 党 十 夺 > pity, 对 任 问 的 i 关 8. 
jz 
把 这 些 等 式 分 别 乘 以 zis 各 然后 相 加 ， 我 们 得 到 


mm 


Ts 万 十 》 Ti SE 
?天 S 


jz 


运用 平衡 方程 组 ， 右 边 等 于 


1+ oD pt =1+ 9 6 9 Tipy 二 |] 十 Db: 


js js i=1 了 zs 


结合 最 后 两 个 等 式 ， 我 们 得 到 "sts = 上 


因为 概率 分 布 i,… ,Tm) 满足 平衡 方程 组 , 如 果 初 始 状态 Xo 是 根据 这 个 分 布 来 选取 
的 , Xn 的 分 布 将 与 Xo 具有 相同 的 分 布 . 如 果 过 程 是 从 常 返 状态 7 开始 的 , 当 n 一 x 
时 , Xn 在 此 状态 的 概率 趋 于 0. 这 表明 我 们 必须 有 7 = 0. 


(d) (b) 部 分 表明 至 少 存 在 一 个 概率 分 布 满足 平衡 方程 组 . 〈c) 部 分 表明 只 有 一 个 这 样 
的 概率 分 布 . 

35.# 马尔 可 夫 链 的 大 数 定 律 ， 考虑 一 个 有 限 状 态 的 马尔 可 夫 链 ， 只 有 一 个 常 返 类 ， 
且 是 非 周期 的 . 固定 状态 s， 定义 还 为 第 次 访问 状态 s 的 时 间 , 为 前 z 次 转 
移 时 访问 s 的 总 次 数 . 


(a) 证 明 : YK/ 以 概率 1 收敛 到 状态 s 的 平均 常 返 时 间 如 . 

(b) 证 明 : Va/n 以 概率 1 收敛 到 lit 

(c) 建立 Wa/n 的 极限 与 s 的 稳 态 概率 之 间 的 关系 . 

解 (a) 固定 初始 状态 1， 可 能 与 s 不 同 . 因此 随机 变量 中 431 一 蒜 : 作 > 1) 对 应 于 相 
邻 两 次 访问 s 的 时 间 间 隔 . "下马 尔 可 夫 性 质 (给 定 当 前 状态 ， 未 来 与 过 去 独立 )， 过 程 


在 回访 s 时 相当 于 重新 开始 , 所 以 随机 变量 丈 +1 二 于 是 相互 独立 、 同 分 布 的 随机 变 
量 , 而 且 均值 等 于 平均 常 返 时 间 运用 大 数 定律 ， 以 概率 1 地 , 有 












































lim = lim SE lim et bol A et A 一 0 十 友 . 

ko0 大 大 一 oo 天 大 一 oa 天 : 
(b) 首先 我 们 将 固定 样本 空间 (马尔 可 夫 链 的 所 有 轨道 的 集合 ) 的 一 个 轨道 站 来 论证 . 4 
次 和 WV 的 取 值 分 别 为 Ww 和 Ww， 进一步 地 ， 根 据 结论 (a) , 假设 序列 yk/ 收敛 到 友 
， 而 且 具 有 这 种 性 质 的 轨道 集合 的 概率 为 1. 现在 取 定 这 样 的 时 间 wn: 位 于 第 4 次 访问 
s 的 时 间 和 第 下 二 1 次 访问 s 的 时 间 之 间 , 即 

















Vk nN < Yk+l: 
对 于 这 样 的 ,vn = 我们 有 

二 

Yk+1 nT Uk 
从 而 

有 vn 1 

yk nk 
注意 到 




















令 了 趋 于 无 穷 大 ， 则 满足 条 件 W <n< 录 1 的 也 必然 趋 于 无 穷 大 .序列 n/n 介 
于 两 个 都 趋 于 1/ 的 序列 之 间 , 因此 序列 "n/n 也 同样 趋 于 极限 1/ 而 这 个 性 质 对 于 
概率 为 1 的 轨道 集合 中 的 任 一 个 轨道 都 成 立 , 故 可 以 得 出 vn/n 以 概率 1 收敛 到 11/ 台 


(c) 在 习题 34 中 已 经 证 明了 1 = 这 说 明了 克 W/m 以 概率 1 收 全 到 7s， 注解 ， 人 们 
也 试图 使 用 另 一 种 方法 来 证 明 你/m 以 概率 1 收敛 到 i 方法 如 下 : ”由 (b) 知 道 n/n 
收敛 ， 又 Va/ 收敛 到 7。( 参 见 7. 3 节 中 的 稳 态 概率 之 长 期 期 望 频率 的 解释 ) , 故 
wj/m 以 概率 1 收敛 到 元 ， 但 是 这 种 推导 方法 是 不 对 的 . 这 是 因为 一 个 随机 变量 序列 冯 
以 概率 1 收 伊 到 一 个 常数 , 而 序列 的 期 望 序列 却 有 可 能 收敛 到 另 一 个 常数 ， 例 子 如 下 . 设 
了 是 单位 区 间 [0, 1] 内 的 均匀 分 布 随机 变量 ， 定 义 























人 当 近 区 < 全 时 
汤 。 站 六 PL 时 


全 零 (概率 1 发 生 )， 则 序列 次 收 剑 到 0， 另 一 方面 ， 可 以 验证 


1 nn 
i 


和 一 





并 
问 


， ] 
ElYn| = P(X < 1/n)EIY|X < 1/n|= 一 二 一 
、 : 2 


1 2 


对 所 有 的 n 都 成 立 . 


7.5 节 ”连续 时 间 的 马尔 可 夫 链 


36.， 一 名 修理 工人 需要 修理 一 套 有 wm 台 相 同 机 器 的 设备 . 修理 损坏 机 器 的 时 间 为 指数 
分 布 , 均值 为 /1 和， 机 器 启动 后 正常 工作 直到 损坏 的 时 间 也 是 随机 变量 , 其 分 布 为 指数 
分 布 ， 均 值 为 1/4， 损坏 和 修理 时 间 是 相互 独立 的 . 


(a) 求 所 有 机 器 都 处 于 修理 状态 的 稳 态 概率 . 
(b) 在 稳 态 情况 下 ， 计 算 处 于 工作 状态 的 机 器 的 平均 台数 . 


37， 空 出 租车 路 过 某 路 口 的 规律 是 一 个 泊 松 过 程 , 通过 的 车 辆 数 服从 强度 为 每 分 钟 两 辆 
的 泊 松 分 布 . 乘客 达到 路 口 的 过 程 也 是 泊 松 过 程 , 均值 为 每 分 钟 一 人 ， 而 且 如 果 前 面具 
有 少 于 四 名 乘客 , 乘客 就 会 等 待 出 租车 ; 否则 他 们 就 会 离开 而 不 回来 . 彭 妮 在 一 给 定时 间 
到 达 该 路 口 ， 假设 过 程 进入 稳 态 ， 求 出 她 在 加 入 等 待 队列 条 件 下 的 期 望 等 待 时 间 . 


38，Z 个 用 户 共 用 一 个 电脑 系统 .用 户 有 两 种 状态 , 一 种 是 “思考 状态 ”， 持 续 时 间 为 独 
立 的 指数 分 布 ， 参 数 为 \, 另 一 种 是 “活跃 模式 ”, 需要 先 递 交 一 份 服务 请 求 . 服务 器 
一 次 只 能 接收 一 份 请 求 , 且 在 完成 服务 之 前 不 会 接收 其 他 用 户 的 请 求 . 服务 请 求 的 时 间 
为 独立 的 指数 分 布 随机 变量 , 参数 为 上 4， 而 且 与 用 户 的 思考 时 间 也 是 独立 的 . 建立 一 条 
马尔 可 夫 链 , 求 出 等 待 请 求 用 户 个 数 的 稳 态 分 布 \ 包 括 正 在 受理 的 服务 ). 


39.* 考虑 一 个 连续 时 间 马 尔 可 夫 链 , 其 转移 率 为 vi, 对 所 有 的 相同 . 假设 过 程 只 有 


一 个 常 返 类 . 


(a) 试 解释 为 什么 转移 时 间 序 列 Yh 是 泊 松 过 程 . 



























































(b) 证 明 马 尔 可 夫 链 六 (的 稳 态 概率 和 岁入 马尔 可 夫 链 Xn 的 稳 态 概率 是 一 样 的 . 


解 (a) 用 v 表示 转移 率 vi 的 共同 值 . 序列 六 是 独立 指数 分 布 时 间 区 间 序 列 ， 


为 wx 因此 它们 能 和 到 达 时 间 联 系 起 来 ， 那 也 是 泊 松 过 程 , 强度 为 v. 
(b) 这 条 连续 时 间 链 的 平衡 和 归 一 化 方程 组 为 
Tj 》 qi 3 TEIkj, 了 一 1 ,m 


Kz kz] 
mm 


1 = 》 了 


大 一 1 


通过 关系 式 2 = "pit ， 约 掉 公 共 因子 wm 这 一 组 方程 可 写 为 
Ng >》 pi -入 TkPkj, 7 = 1 ,m, 





kj kj 
1 = 
大 一 1 
2 Pi =1— pi 
于 是 有 #3 , 所 以 上 述 方程 组 中 的 平衡 方程 组 可 以 写 为 
Tj(l1 — p;;) = YAPpgj, 了 一 1,.… ,m, 
kz] 


从 而 


m 


= 》 Mpgj 7=1,.…,m. 


k=1 


参数 


这 就 是 嵌入 马尔 可 夫 链 的 平衡 方程 组 ， 因 为 它 是 非 周期 的 单一 常 返 类 , 所 以 平衡 方程 组 





J 入 5 也 是 这 条 艇 入 马尔 可 夫 链 的 稳 态 概率 . 


第 8 章 贝 叶 斯 统计 推断 


统计 推断 是 从 观测 数据 推断 未 知 变 量 或 未 知 模型 的 有 关 信 息 的 过 程 . 本 章 和 第 9 章 旨 


(a) 评价 统计 学 中 两 种 主要 方法 ( 贝 叶 斯 统计 推 师 和 经 典 统计 推断 ) 的 优 缺 点 、 区 别 
和 类 似 之 处 ; 


(b) 介绍 统计 推断 的 主要 内 容 (参数 估计 、 假 设 经 验 和 显著 性 检验 ) ; 


(c) 讨论 统计 学 中 最 重要 的 方法 (最 大 后 验 概率 准则 ， 最 小 均 方 估计 , 最 大 似 然 估计 ， 
回归 ， 似 然 比 检验 ， 等 等 ) ; 


(d) 举例 说 明 如 何 运用 理论 . 
1. 概率 与 统计 


统计 推断 与 概率 理论 在 许多 重要 方面 存在 不 同 . 概率 论 是 建立 在 第 1 章 公 理 的 基础 上 的 
自我 完善 的 数学 课题 ， 在 概率 推理 中 , 我 们 假设 有 一 个 完整 的 特定 概率 模型 满足 这 些 概 
率 公 理 . 然后 运用 数学 方法 对 这 个 概率 模型 进行 量化 ， 以 及 回答 感 兴趣 的 问题 . 特别 地 ， 
一 些 模棱两可 的 问题 只 有 唯一 的 正确 答案 , 即使 这 个 答案 有 时 也 很 难 发 现 . 概率 模型 从 
本 质 上 看 也 无 需 与 实际 相 一 致 (虽然 模型 有 用 会 更 好 一 些 ). 


统计 学 却 不 是 这 种 情况 ， 可 以 说 统计 学 是 艺术 的 一 部 分 ， 对 一 个 有 具体 的 问题 ， 存 在 很 
多 合理 的 方法 ， 可 得 出 不 同 的 结论 ， 一 般 而 言 ， 除 非 人 们 可 对 所 研究 的 问题 施加 一 些 
假设 或 者 附加 约束 条 件 ， 在 这 些 条 件 下 进行 推 新 ， 得 到 “理想 ”的 结论 ， 和 否则 没有 
一 个 绝对 的 准则 来 选择 “最 好 ”的 方法 ， 比 如 ， 只 知道 股票 市 场 在 最 近 五 年 回报 率 的 
历史 数据 ， 就 不 会 有 一 个 “最 好 ”的 方法 来 预测 下 一 年 的 回报 率 . 


所 以 人 们 把 寻找 “正确 ”的 方法 局 限 在 能 得 到 一 些 理想 的 性 质 的 方法 上 ， 比 如 当 数 据 
的 样本 量 在 无 穷 大 的 情况 下 能 做 出 正确 的 推 上 新 ， 判 断 一 种 方法 优 于 其 他 方法 可 以 考虑 
如 下 几 个 因素 : ”性 质 优良 ， 过 去 的 经 验 ， 共 同 的 观点 ， 以 及 统计 学 家 对 一 种 特定 方法 
解决 一 类 特殊 的 问题 方面 形成 的 共识 .我 们 将 重点 介绍 一 些 最 流行 的 方法 ， 并 介绍 对 
它们 进行 分 析 和 比较 的 主要 方法 . 


2， 贝 叶 斯 统计 与 经 典 统计 
在 统计 领域 ， 有 两 种 突出 但 对 立 的 思想 学 派 ， 贝 叶 斯 学 派 和 经 典 学 派 ( 也 称 频率 学 派 ) 


他 们 之 间 最 重要 的 区 别 就 是 如 何 看 待 未 知 模型 或 者 变量 . 贝 叶 斯 学 派 的 观点 是 将 其 看 成 
是 已 知 分 布 的 随机 变量 ， 而 经 典 统计 学 派 的 观点 是 将 其 看 成 未 知 的 待 估计 的 量 . 


贝 叶 斯 方法 主要 是 想 将 统计 领域 拉 回 到 概率 论 的 王国 里 , 使 得 每 个 问题 都 只 有 唯一 的 答 
案 ， 特 别 地 , 当 人 们 和 欲 对 未 知 模型 进行 推断 时 , 贝 叶 斯 方法 将 该 模型 看 成 是 随机 地 从 已 
知 的 一 类 模型 中 选 出 来 的 . 处 理 方法 是 引入 一 个 随机 变量 日 来 刻画 该 模型 , 然后 构造 一 
































































































































































































































个 先 验 概率 分 布 Pel 外 . 在 已 知 数据 x 的 情况 下 ， 人 们 原则 上 使 用 贝 叶 斯 公式 来 推导 
后 验 概率 分 布 pelxlglz). 这 样 就 抓 住 了 x 能 提供 关于 9 的 所 有 信息 


相反 ， 经 典 统计 方法 将 未 知 参数 9 视 为 常数 ， 但 是 未 知 就 需要 估计 . 然后 经 典 统 计 的 
目标 就 是 提出 参数 9 的 估计 方法 , 且 保证 具有 一 些 性 质 ， 本 书 介绍 一 个 重要 的 概念 . 它 
与 本 书 介 绍 的 其 他 方法 中 使 用 的 概念 的 区 别 是 : 经 典 方法 处 理 的 不 是 一 个 概率 模型 
而 是 有 多 个 待 选 的 概率 模型 , 每 个 标记 为 9 的 一 个 可 能 值 . 


两 个 学 派 的 争论 已 经 持续 一 个 世纪 了 ， 经 常 争论 的 是 哲学 思想 . 在 两 派 的 争论 过 程 中 ， 
每 派 都 构造 一 些 例子 来 说 明 对 方 学 派 的 方法 有 时 会 得 到 不 合理 的 或 者 不 吸引 人 的 结论 . 
我 们 简短 地 回顾 两 个 学 派 争论 的 观点 . 


假设 我 们 要 通过 噪声 实验 的 手段 来 测量 一 个 物理 常数， 比如 电子 的 质量 . 经 典 统计 学 家 
认为 电子 的 质量 尽管 未 知 ， 但 也 只 是 一 个 常数 , 所 以 不 能 把 它 看 成 随机 变量 ， 而 贝 叶 斯 
统计 学 家 却 给 它 一 个 先 验 分 布 ,来 反映 人 们 对 电子 质量 的 已 有 知识 ， 比 如 , 如 果 我 们 已 
经 从 历史 实验 中 获知 电子 质量 的 大 概 范围 , 则 可 以 将 先 验 分 布 集中 在 那个 范围 内 . 


经 典 学 派 统 计 学 家 经 党 反对 这 种 挑选 一 个 特定 先 验 的 随意 性 . 贝 叶 斯 统计 学 家 反驳 说 ， 

任何 统计 推断 往往 隐 含 着 一 些 先 验 ， 进 一 步 地 , 在 某 些 例子 中 ， 先 验 分 布 如 果 是 某 个 特 
殊 选 定 的 分 布 ,经典 方法 实质 上 是 与 贝 叶 斯 方法 等 价 的 . 通过 将 所 有 的 假设 都 以 先 验 的 
形式 放 在 一 起 , 贝 叶 斯 统计 学 家 主张 将 这 些 假设 公开 ， 并 认为 它们 是 经 得 起 推 项 的 . 


最 后 ， 从 实际 的 角度 考虑 .在 许多 情况 下 ， 贝 叶 斯 方法 在 计算 方面 很 杯 手 , 比如 需要 计 
算 多 维 的 积分 ， 另 一 方面 ， 随 着 快速 计算 逐渐 为 人 们 所 用 , 贝 叶 斯 统计 学 派 的 大 量 最 新 
研究 成 果 就 集中 在 如 何 使 贝 叶 斯 方法 具有 可 行 性 上 . 


3， 模 型 推断 和 变量 推断 


统计 推断 的 应 用 主要 有 两 种 类 型 ， 模 型 推 晰 和 变量 推断 . 在 模型 推断 中 , 研究 的 目标 是 
物理 现象 或 过 程 , 基于 得 到 的 数据 为 这 些 物理 现象 或 过 程 构造 或 者 验证 一 个 模型 (比如 
行星 运行 的 是 否 为 椭圆 轨道 ). 利用 这 样 的 模型 就 可 以 对 未 来 进行 预测 ， 或 者 推 知 许多 
未 知 的 原因 . 在 变量 推断 中 ， 人 们 使 用 许多 相关 的 , 或 者 带 有 噪声 的 信息 估计 一 个 或 者 
多 个 变量 值 (比如 , 知 给 定 一 些 GPS 的 信息 ， 那 么 我 们 现在 的 位 置 在 什么 地 方 ). 


模型 推断 与 变量 推断 的 区 别 不 是 很 明显 ， 比 如, 将 模型 描述 为 一 组 变量 的 形式 , 我 们 就 
可 以 将 模型 推断 的 问题 转换 成 变量 推 类 的 问题 ， 在 很 多 情况 下 , 我 们 将 不 强调 它们 的 区 
别 , 这 是 因为 相同 的 方法 可 以 同时 使 用 在 这 两 种 类 型 的 推 产 中 . 


在 有 些 应 用 中 ， 需 要 同时 考虑 这 两 种 推 新 问题 ， 比如, 我 们 收集 了 一 些 原始 数据 ， 使 用 
数据 来 建立 一 个 模型 ,然后 利用 模型 去 推 知 相关 变量 值 . 


例 8. 1( 噪 声 信道 ) ”发 送 端 发 送 一 串 二 进 制 信号 5 & {0, 1 接收 端 观测 到 
Xi=asi+Wi, 1i1=1,.…,n, 


其 中 Wi 是 零 均 值 的 正 态 随 机 变量 (反映 信道 的 噪声 ), a 是 实数 (用 于 刻画 信道 的 衰减 
率 )， 在 模型 推 朵 中 ，a 是 未 知 的 . 发 送 端 发 送 一 组 测试 信号 5 52,… ,sn, 接收 端 是 知 







































































































































































































































































道 发 送 端 发 送 的 信号 的 . 现在 的 任务 是 基于 观测 值 X1,… , Xa， 接收 信号 方 欲 估计 a 
的 值 . 这 就 是 模型 推断 的 任务 建立 这 个 信道 的 模型 . 


另 一 个 方面 ， 在 变量 推 煌 中 , a 是 假设 已 知 的 (可 能 是 因为 如 上 利用 测试 数据 推断 出 来 
了 ) .接收 方 观测 到 数据 六,… ,X 后 , 欲 估计 s1,… ,sn 的 值 .这 就 是 变量 推断 的 任 
务 : 确定 si， ,sn 的 值 . 

4， 统 计 推 断 问题 的 简单 分 类 

这 里 我 们 描述 一 些 不 同类 型 的 统计 推断 问题 ， 在 估计 问题 中 ， 模 型 是 完全 确定 的 ， 只 
是 有 一 些 未 知 的 (可 能 是 多 维 的 ) 参 数 9 需要 去 估计 . 参数 既 可 以 看 成 随机 变量 ( 贝 叶 其 
方法 ) , 也 可 以 看 成 是 未 知 常数 (经 典 方法 )， 通 常 的 目标 就 是 得 到 9 的 估计 , 使 得 它 在 
某 种 意义 上 与 真实 值 接近 ， 比 如 : 

(a) 在 例 8. 1 噪声 信道 问题 中 ， 使 用 测试 序列 知识 和 观测 值 去 估计 2 ; 


ee 意 测 验 数 据 ， 估 计 一 个 选举 地 方 内 选民 文 持 候选 人 4 而 反对 候选 人 B 的 


(c) 基于 股票 市 场 历史 数据 , 估计 一 个 特定 股票 的 价格 每 日 走势 的 均值 和 方差 . 


人 
有 0 


(a) 在 例 8. 1 噪声 信道 问题 中 , 使 用 a 的 知识 和 Xi 去 判断 si 是 0 还 是 1; 
(bp) 给 定 一 个 带 有 噪声 的 图 片 ， 判 断 图 片 中 是 否 有 人 ; 
(c) 给 定 有 两 种 不 同 的 医疗 处 理 方法 的 临床 实验 数据 , 判断 哪 种 疗法 更 有 效 . 


更 一 般 地 ， 在 也 重 假 设 检验 问题 中 ,有 w 个 对 立 的 假设 . 判断 一 种 方法 的 好 坏 的 依据 
是 该 方法 做 出 错误 结论 的 概率 大 小 ， 当 然 , 贝 叶 斯 方法 和 经 典 方法 都 是 可 以 利用 的 . 


在 本 章 中 ， 我 们 重点 介绍 贝 叶 斯 估计 问题 ， 但 也 讨论 假设 检验 问题 . 在 第 9 章 中 ， 除 了 
讨论 估计 问题 外 ， 我 们 还 要 讨论 更 广 的 假设 检验 问题 我 们 只 是 介绍 性 的 讨论 ， 远 远 不 
能 满足 实际 中 存在 的 统计 推断 问题 的 需要 . 为 说 明 实际 问题 的 广泛 性 ， 考 虑 具有 形式 
六 三 0CX] + WW 的 模型 ,该 模型 涉及 两 个 随机 变量 六 和 了 其 中 克 是 零 均值 噪声 ,7 是 
需要 估计 的 未 知 函 数 ， 这 类 问题 , 未 知 目标 (比如 这 里 的 函数 8 ) 是 不 能 表述 为 固定 数 

目的 参数 , 称 为 非 参 数 统计 推断 问题 , 就 不 在 本 书 考 虑 范围 之 内 了 . 


本 章 中 的 主要 术语 、 问 题 以 及 方法 
。 贝 叶 斯 统计 将 未 知 参数 视 为 已 知 先 验 分 布 的 随机 变量 . 
。 在 参数 估计 中 ， 对 参数 进行 估计 , 使 得 在 某 种 概率 意义 下 估计 接近 真实 值 . 


。 在 假设 检验 中 ， 未 知 参数 根据 对 立 的 假设 可 能 取 有 限 个 值 . 人 们 去 选择 其 中 一 
个 假设 ， 目 标 是 使 犯错 误 的 概率 很 小 . 
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。 贝 叶 斯 推断 的 主要 方法 

(a) 最 大 后 验 概率 (MAP) 准则 : 在 可 能 的 参数 /假设 的 取 值 范围 内 ， 选 择 一 个 
在 给 定数 据 下 , 具有 最 大 化 条 件 概率 /后 验 概率 的 值 (参见 8. 2 节 ) ; 
(bp) 最 小 均 方 LLMS) 估计 :选择 数据 的 一 个 估计 量 或 者 函数 , 使 得 参数 与 估计 
之 间 的 均 方 误差 达到 最 小 (参见 8. 3 节 ); 
(c) 线性 最 小 均 方 (LLMS) 估计: 选择 数据 的 一 个 线性 函数 , 使 得 参数 与 估计 
之 间 的 均 方 误差 达到 最 小 (参见 8. 4 节 ). 这 可 能 会 得 到 更 高 的 均 方 误差 ， 但 是 
计算 简单 , 因为 计算 过 程 只 依赖 于 相应 随机 变量 的 均值 、 方 差 和 协 方差 . 
































8.1 贝 叶 斯 推断 与 后 验 分 布 


在 贝 叶 斯 推断 中 ， 感 兴趣 的 未 知 量 记 为 9, 视 其 为 一 个 随机 变量 ， 或 者 随机 变量 的 有 限 
集合 . 这 里 日 代表 物理 量 ， 比 如 车 辆 的 位 置 和 速度 , 也 可 代表 一 个 概率 模型 的 未 知 参数 
集合 。 简 单 而 言 , 在 没有 明确 标明 的 情况 下 , 日 视 为 一 个 简单 的 随机 变量 . 


我 们 的 目标 就 是 基于 观测 到 相关 随机 变量 的 值 A = (X1,… ,六 a) 来 提取 eB 的 信息 . 
我 们 称 六 = (Xl1,… ,六 n) 为 观测 值 、 测量 值 或 者 观测 向 量 ， 为 此 , 假定 我 们 知道 8 
和 XY 的 联合 分 布 ， 等 价 地 ， 假 定 我 们 已 知 : 

(a) 先 验 分 布 Pe 或 者 fe， 这 要 看 日 是 离散 的 还 是 连续 的 ; 

(bp) 条 件 分 布 Pxle 或 者 jxle, 同样 这 也 要 看 © 是 离散 的 还 是 连续 的 . 

一 且 了 的 一 个 特定 值 x 观测 到 后 ， 贝 叶 斯 推断 问题 的 完整 答案 就 由 日 的 后 验 分 布 


Pelx(9|z) 或 者 felxt9|7) 来 决定 ， 见 图 8. 1， 这 个 分 布 可 以 使 用 贝 叶 斯 法 则 来 计算 .在 
己 经 得 知 的 信息 下 ， 它 抓 住 了 关于 8 的 一 切 信 息 ， 从 而 成 为 了 未 来 分 析 的 起 点 . 

















































i 2 polx(-|X=9 ， 点 估计 ， 
观察 过 程 误差 分 析 等 ， 


条 件 分 布 也 xie 


图 8.1 贝 叶 斯 推断 模型 的 总 结 . 起 点 是 8 和 观测 X 的 联合 分 布 , 或 者 等 价 的 说 法 
是 先 验 分 布 和 条 件 分 布 列 /概率 密度 函数 . 已 知 了 的 观测 值 x 后 ， 运 用 贝 叶 斯 法 则 
计算 后 验 分 布 列 /概率 密度 函数 . 后 验 分 布 可 用 来 回答 更 多 的 推断 问题 . 比如 计算 © 
的 估计 、 相 关 的 概率 和 误差 方差 


贝 叶 斯 推断 的 总 结 
。 起 点 是 未 知 随机 变量 日 的 先 验 分 布 Pe 或 者 fe. 
。 得 到 观测 向 量 了 的 Pxle 或 者 jxle. 
。 一 旦 了 的 一 个 特定 值 x 观测 到 后 , 运用 贝 叶 斯 法 则 计算 日 的 后 验 分 布 . 


在 此 我 们 提醒 大 家 注意 的 是 : 针对 © 和 了 的 离散 性 和 连续 性 的 不 同 组 合 , 贝 叶 斯 法 则 
有 四 种 不 同 的 形式 .现在 我 们 列举 如 下 表 ， 便 于 使 用 .然而 , 四 种 形式 本 质 上 是 类 似 
的 , 我 们 只 须 把 最 简单 的 形式 (所 有 变量 都 是 离散 的 ) 理解 清楚 , 对 其 余 情况 只 需 做 一 个 
概念 的 对 换 ， 在 遇 到 连续 变量 时 , 我 们 只 需 将 分 布 列 蔡 换 成 概率 密度 函数 ， 把 求 和 换 成 
积分 . 进一步 地 , 如 果 © 是 多 维 的 话 , 相应 的 求 和 或 者 积分 就 是 多 重 求 和 或 者 多 维 积 


分 . 


















































贝 叶 斯 法 则 的 四 种 形式 


e 离散 ， 了 离散 : 


加 > opel9JPxletzl2) 


9 离散 ， 耻 连续 : 


~ Dy pel9) fxie(z|0) 


9 连续 ， 了 了 离散 : 


| felo')pxielz|9) de 


日 连续， 下 连续: 


pelx(9|z) 


pelx(9|z) 


felxl0|7) = 


fel9)fxelz|0) 
f fel9)fxelro) do 
下 面 举 一 些 例子 来 说 明 如 何 计算 后 验 分 布 . 
例 8.2 罗密欧 和 朱丽叶 开始 约会 . 但 是 朱丽叶 在 任何 约会 中 都 可 能 迟到 , 迟到 时 间 记 
为 随机 变量 下 服从 区 间 [0,9 上 的 均匀 分 布 ， 参 数 9 是 未 知 的 ， 是 随机 变量 8 的 
一 个 值 . 8 是 在 0 和 1 小 时 之 间 均 匀 分 布 ， 假设 朱丽叶 在 第 一 次 约会 中 迟到 了 石 那么 罗 
密 欧 如 何 利 用 这 个 信息 去 更 新 © 的 分 布 . 


这 里 先 验 概率 密度 函数 是 


Jelxtglz) = 








以 及 观测 值 的 条 件 概率 密度 函数 


和 


fxle(z|0) = 
0, 其 他 . 


注意 , fel9)fxlel7|9) 只 有 当 0<z<9<1 时 非 零 ， 运 用 贝 叶 斯 法 则 可 得 : 对 任意 的 
TE |0,1) 后 验 概率 密度 函数 是 





fe (9) fxelz|0) 1/9 ] 


jfelxlglz) = OO = ， 
J felo)fxie(zlo) dr 大 二 6 Ollogz| rz<0<1. 








现在 考虑 前 ”次 约会 情况 所 引起 的 变化 ， 假 设 朱丽叶 退 到 的 时 间 记 为 Xi,… , Xn， 在 
给 定 = 0 条 件 下 , 它 是 区 间 |0,9] 的 均匀 分 布 ， 且 条 件 独立 ， 记 
X = 0 ,Xn),z = (X1,… ,Xn)， 类 似 于 n=1 的 情形 ， 我 们 有 


I， 省 革 访 用 二 


0， 其 他 ， 


其 中 工 = max{zl,……… ,zn}. 后 验 概率 密度 函数 是 


fxle(7z|0) = 





EO" 省 1; 
0， 其 他 ， 


其 中 ct) 是 归 一 化 常数 ， 只 依赖 于 1: 


folx (97) = 


1 
二 
上 -一 一 人 QU 
JI (8)7 


例 8. 3( 正 态 随机 变量 公共 均值 的 推断 ) ” 设 随 机 变量 观测 值 六 = (Xi1,… ,六 n) 具有 相 
同 的 均值 ， 但 是 均值 未 知 ， 需 要 估计 ， 假设 给 定 均值 的 条 件 下 , XX; 是 正 态 的 ， 且 相互 
独立 ， 方 差分 别 为 ,9m， 使 用 贝 叶 斯 方法 ， 我 们 对 均值 进行 建 模 ， 设 Xi 的 公共 
均值 为 随机 变量 B， 且 已 知 其 先 验 分 布 ， 具 体 而 言 ， 我 们 假设 随机 变量 日 的 分 布 为 
正 态 分 布 ， 均 值 已 知 为 zo， 方 差 为 已 知 %. 
为 将 来 引用 ， 注 意 到 我 们 的 模型 等 价 于 下 列 形式 

Xi=O+Wi, 1=1,.… ,n, 


其 中 随机 变量 9,; Whi,…… ,Wh 相互 独立 ， 且 是 正 态 的 , 均值 和 方差 均 已 知 ， 特 别 地 ， 对 
任意 的 6 


ct 还) = 

















E[lWi] = EIWi|© = 9 =0, var(Wi) = var(Xi|© = 0) = 02. 


这 类 模型 在 许多 工程 应 用 中 非常 普 裔 , 工程 中 一 个 未 知 量 往往 有 若干 个 独立 的 测量 值 . 


根据 假设 ， 我 们 有 





F6lg9) = cl em 2 (9 一 2 


SA | 
200 


以 及 


(zl — 0)? a _ (zn —0) 
201 202 | 


这 里 “2 是 归 一 化 常数 ， 不 依赖 于 9. 运用 贝 叶 斯 法 则 


felrl0) = oa- exp{ 


fel9)fxel7z|9) 


DAC) di 
foix(éls | fel(9)fxlelz|9) do 


注意 ， 分 子 项 fe(9)fxle(z|9) 的 形式 是 
本 (ri 一 从? 
ClC2 * ow- > = 


i=0 


通过 代数 运算 ， 对 指数 的 肩膀 上 的 求 和 部 分 进行 配 平方 , 可 以 算出 分 子 项 的 形式 是 


{ (如 一 二 | 
d :exp4 一 一 一 一 ，， 
27 


n ) 2 
2 0 Tif Oi 1 


VY 二 


Di 1/o? ， Di 1/o? | 


qd 是 常数 ， 只 依赖 于 z 不 依赖 于 9. 贝 叶 斯 法 则 公式 中 的 分 母 项 也 不 依赖 于 8， 所 以 
我 们 可 以 得 出 结论 , 后 验 概率 密度 函数 的 形式 是 


jelxtglz) = a- {5} 


甘 


27 


4 二 11vV2m 是 归 一 化 常数 ， 只 依赖 于 zi 不 依赖 于 9， 这 是 正 态 概率 密度 函数 的 形式 ， 
所 以 后 验 概率 密度 函数 是 正 态 的 ， 均 值 是 方差 是 x 


特殊 情况 下 ， 假 设 %; 7,… ,0 都 相等 , 等 于 o2， 则 日 的 后 验 概率 密度 函数 是 正 态 
的 , 均值 和 方差 分 别 是 





在 这 种 情况 下 ， 先 验 均值 zo 扮演 着 一 个 观测 值 的 作用 , 而 且 对 日 的 后 验 均值 发 挥 相 
同 的 作用 . 同时 注意 到 8 的 后 验 概率 密度 函数 的 标准 差 在 观测 样本 量 增 大 时 趋 于 0， 速 














度 大 致 是 1/Vn. 


er ; 不 相同 ， 后 验 均值 wm 仍 是 每 个 zx; 的 加 权 平 均 , 方差 越 小 ， 对 w 的 权重 
有 


上 例 有 一 个 显著 的 性 质 , 那 就 是 日 的 后 验 分 布 与 先 验 分 布 是 同一 个 分 布 族 , 比如 说 正 态 
分 布 族 .这 个 性 质 非常 吸引 人 ， 原 因 有 两 个 . 


(a) 后 验 分 布 的 特征 只 有 两 个 数 : 均值 和 方差 . 


(b) 后 验 分 布 的 解 形式 可 以 使 用 有 效 的 递归 推断 . 假设 已 经 获得 观测 值 Ai … ,六 n, 且 

下 一 个 观测 值 六 n+1 也 得 到 了 ， 那 么 我 们 不 必 从 头 开 始 ee 分 布 ， 而 是 我 们 可 以 将 

Je 作为 先 验 , 然后 运用 新 观测 值 运算 得 到 新 后 验 jj 一 xsa 我 们 可 以 使 用 例 

8 的 答案 来 求 这 个 后 给 ， 显然 (当然 可 以 正式 推导 ), 日 的 新 后 验 / 分 布 也 是 正 态 的 ， 均 
全 























(mj fo) 十 (Zn 二 1/ fo2, Uy) 


(1/u) + (1/o2, 1) 


1 
(1/v) + (1/o241) 


其 中 wm 和 v 分 别 是 后 验 je 的 均值 和 方差 . 


但 是 后 验 分 布 与 先 验 分 布 属于 同一 分 布 族 的 情形 不 是 非常 普 裔 . 除了 正 态 分布 族 外 ， 男 
外 有 名 的 例子 是 投掷 硬币 的 伯 努 利 试 验 和 二 项 分 布 . 


例 8. 4( 非 均匀 硬币 的 贝塔 先 验 ) ”和 欲 估计 一 个 非 均匀 硬币 投掷 时 正面 朝 上 的 概率 ， 记 
为 9. 将 8 看 成 随机 变量 日 的 一 个 值 , 的 先 验 概率 密度 函数 为 fe. 现在 考虑 次 独 
芯 的 投掷 试验 ， 记 了 为 观测 到 的 正面 朝 上 的 总 次 数 . 运用 贝 叶 斯 法 则 , @ 的 后 验 概率 密 
度 函 数 是 :对 任意 的 9& 加山 


felx(Olk) = cfe(9)pxe(k|9) = dfe(0)9*(1 — 9)"™, 








d=c ” 人 
其 中 c 是 归 一 化 常数 (不 依赖 于 9)， 且 四 
现在 假设 先 验 是 贝塔 分 布 ， 参 数 是 正 整数 w >0 和 50， 即 


a 


fe(d) = Be 
其 他 ， 





其 中 Bla,5) 是 归 一 化 常数 ， 就 是 著名 的 贝塔 函数 ， 即 


(ae 一 1DI5 一 TI 


1 
B(a, 8) = / ga-lf1 — 0)3-1d9 = ~ 
J (a+8—1) 


最 后 一 个 等 式 可 以 通过 分 部 积分 的 方法 ， 或 者 使 用 概率 方法 (第 3 章 习题 30) 计算 得 到 . 
则 e 的 后 验 概 率 密度 函数 的 形式 是 








felx(0lk) 部 人 — Ok+ta-1l 0 < 8 < 1. 
OQ, 1/ 


所 以 也 是 贝塔 分 布 ， 参 数 是 
Q 一 大 十 a. 3 一 九 一 大 十 了 . 


特殊 情形 是 9 = 5=1, 即 先 验 fe 是 [0, 141] 的 均匀 分 布 密度 ， 在 这 种 情形 下 , 后 验 密度 
也 是 贝塔 密度 ， 参 数 是 大 +1 和 一 大 十 二 


贝塔 密度 常常 在 统计 推 肠 的 实际 应 用 中 遇 到 ， 而 且 具 有 很 有 趣 的 性 质 . 特别 地 ， 如 果 日 
是 服从 参数 为 a 和 的 贝塔 分 布 时 , 它 的 w 阶 矩 是 

















和 Am 1 ! ma 十 Q 一 1 7 5 一 1 
E[©™] =B(a- 上 0 (1—8) 4d9 
Blm + a., BH) 
加 Bla, 3) 
alat+1):…{(la+t+m—1) 
(a+Blat+B+1)-.-..(a+B+m—1) 


前 面 几 个 例子 都 是 讨论 日 是 连续 的 情形 , 而 且 是 典型 的 参数 估计 问题 ， 下 面 这 个 例子 
是 离散 情形 , 是 典型 的 二 重 假设 检验 问题 . 


例 8. 5 (垃圾 邮件 过 滤 ) ”一 封 电 子 邮件 不 是 垃圾 邮件 就 是 正常 邮件 ， 我 们 引入 参数 6@ 
， 取 值 为 1 和 2， 分 别 代表 垃圾 和 正常 ， 各 自 取 值 的 概率 分 别 为 Pel1),Pel2)， 设 
fi an 代表 一 些 特殊 的 词 (或 者 词 的 组 合 ) 形 成 的 集合 ， 它 们 出 现 就 表示 邮件 是 垃 
圾 的 ， 对 每 个 i 记 Xi 是 伯 努 利 随 机 变量 ， 来 定义 wi 是 否 出 现在 信息 中 ， 即 当 wi 
出 现时 , Xi = 1， 否 则 Xi = 0， 假 设 条 件 概 率 Pxilelzill) 和 Pxslel7i|2)lzi = 0,1) 是 已 知 
的 ， 简 单 起 见 ， 假 设 在 给 定 日 的 条 件 下 ， 随 机 变量 入 1,…* ,Xn 是 相互 独立 的 . 


现在 我 们 运用 贝 叶 斯 法 则 来 计算 垃圾 邮件 和 正常 邮件 的 后 验 概率 ， 即 





pelm) 朵 二 pxielzilm) 


PIO 一 m|X1 二 Tl1,"** Ep = Tn ) A 
2 六 1 pe (7) I px,lelTi [7) 


m 一 
1,2 


这 两 个 后 验 概率 可 以 用 于 将 邮件 分 类 为 垃圾 还 是 正常 , 其 计算 方法 将 在 后 面 继续 讨论 . 
多 参数 问题 





目前 为 止 我 们 只 讨论 单个 未 知 参 数 的 情形 . 多 个 未 知 参数 的 情形 也 是 完全 类 似 的 . 下 一 
个 例子 讨论 的 是 两 个 参数 的 问题 

例 8.6( 传 感 器 网 络 的 定位 ) ”假设 及 个 声 敏 元 件 ， 分 布 在 我 们 关注 的 一 个 地 理 区 
域内 ， 设 第 了 个 声 敏 元 件 的 坐标 是 (ai 切 ， 一 辆 发 送 已 知 声音 信号 的 车 辆 在 这 个 区 
域内 ， 坐 标 为 © = (81,62)， 但 是 未 知 ， 每 个 声 敏 元 件 探测 到 这 个 车 辆 ( 即 捕捉 到 这 个 
车 辆 的 信号 ) 的 概率 依赖 于 它们 之 间 的 距离 ， 观 测 数据 是 哪些 声 敏 元 件 探测 到 车 辆 ， 
哪些 没有 探测 到 ， 目 标 就 是 尽 可 能 地 找到 车 辆 所 在 的 位 置 ， 见 图 8. 2. 


目标 的 位 置 (未 知 ) 


GO 
/ 0 
/2 % C2 
声 敏 元 第 一 人 es 声 敏 元 件 


图 8. 2 ”运用 声 感 传 感 器 网 络 定位 示意 图 


先 验 概率 密度 函数 fe 的 意思 是 我 们 基于 历史 观测 数据 对 这 个 车 辆 的 位 置 的 大 致 认识 . 
简单 起 见 ， 假 设 91 和 62 是 相互 独立 的 正 态 随机 变量 , 均值 为 0、 方 差 为 1， 所 以 














ee 1 _182482)12 
fel91, ts) = 2 1 24 
当 第 7 个 声 敏 元 件 探 测 到 车 辆 时 ， 令 总 =1 否则 Xi =0. 由 于 信号 强度 随 目标 与 声 
敏 元 件 之 间 的 距离 的 增加 而 衰变 , 我 们 假定 捕捉 概率 与 声 敏 元 件 与 车 辆 之 间 的 距离 
下 (0 加) 是 旺 指数 递 降 的 . 具体 说 ， 我 们 使 用 模型 

















P(X:; = 1|9 = (0,)) = px,el 1|01, 9») 一 @—di(01,02) 





其 中 中 (1 名) = (4i 一 外 十 (ti 一 名 .进一步 假设 在 给 定 车 辆 位 置 日 的 条 件 下 , Xi 是 彼 
此 独立 的 . 
定义 5 为 Xi=1 的 传感器 集合 ， 现 在 计算 后 验 概率 密度 函数 ， 计 算 felx(9|7) 的 贝 
叶 斯 公式 中 的 分 子 是 

fet g)pxie(z|9) 二 二 ec 全 +2)/2 [I @—di(01,02) TIa _ @e—di(01,02) ). 


iES 证 S 








其 中 x 是 六 维 向 量 (zl…,zm)， 其 第 7 个 元 素 z。 当 ies 时 ,zi 二 1， 否则 zi 二 0 
. felxl9|z) 的 表达 式 中 的 分 母 就 是 对 分 子 表 达 式 的 一 个 = 其 积分 变量 分 别 为 外 
和 网 . 


例 8. 6 表明 ， 不 管 @ 是 一 个 或 者 多 个 变量 向 量 , 计算 后 验 概率 密度 函数 Jelxt4lz) 的 原 
则 是 一 样 的 , 但 是 , 即使 原则 上 后 验 概 率 密 度 函 数 是 通过 使 用 贝 叶 斯 法 则 运算 得 到 , 但 

是 一 般 而 言 ， 不 能 指望 后 验 概率 密度 函数 有 闭合 式 的 表达 式 ， 实 际 上 ， 可 能 需要 进行 数 
值 计 算 ， 通常, 运用 贝 叶 斯 公式 计算 分 母 的 归 一 化 常数 很 具有 挑 成 性 . 在 例 8. 6 中 , 分 母 
是 对 负 和 多 的 双重 积分 ， 数 值 计算 具有 可 行 性 . 但 是 如 果 日 是 高 维 的 话 ， 那么 数 介 
积分 就 非常 难 了 . 现在 已 经 有 成 熟 的 近似 计算 方法 ， 即 可 以 运用 随机 抽样 的 方法 求 近似 
积分 , 这 些 内 容 已 不 在 本 书 的 讨论 范围 之 内 了 . 


当 日 = (81,… ,Bm) 是 多 维 的 时 候 , 我 们 有 时 只 对 日 其 中 一 个 元 素 ( 比如 说 982 感 
兴趣 . 这 样 就 集中 在 计算 feixt 鲁 |z), 即 9B1 的 边缘 后 验 分 布 ， 计 算 公式 是 





















































feilx(91|7) 一 f-- |) fax(0,0,.- Om|7) jdgo .…:t 1]9，. 








然而 ， 当 8 是 高 维 的 时 候 ， 计 算 这 个 多 重 积 分 是 非常 困难 的 . 


8. 2 


点 估计 ， 


本 节 介 绍 一 种 简单 但 是 





给 定 观 测 值 be 9 的 一 个 取 值 ， 


i 








续 则 为 后 验 分 布 概率 密度 函数 jxtelz) ) 达到 最 大 : 


0 = arg x Pelxtglz) (© 离散 ) | 
6 = arg max felx(9|z) (e 连续 ). 
这 就 是 最 大 后 验 概率 WAP) 准则 ( 见 图 8. 3) . 
后 验 概 率 密度 函数 后 验 分 布 列 
fol x(0|2) pel x(0|2) 





图 8.3 最 大 后 验 准 则 用 于 推断 的 说 明 , 左边 是 连续 型 变量 ， 右 边 是 离散 型 变量 


当 © 是 离散 型 变量 ， 最 大 后 验 概率 准则 有 一 条 重要 的 最 优 性 质 :， 由 于 0 是 @ 最 有 可 

能 的 取 值 , 它 使 对 任意 给 定 的 x 有 最 大 的 概率 做 出 正确 的 决定 . 这 也 说 明 最 大 后 验 概率 
准则 使 总 体 (平均 了 所 有 x 可 能 的 取信) 做 出 正确 决定 的 概 这 达到 最 大 (在 所 有 决策 准 
则 中 ). 等 价 地 ， 最 大 后 验 概率 准则 使 得 做 出 错误 决定 的 概率 达到 最 小 (对 于 每 个 x 的 观 








测 值 , 也 针对 总 体 错误 的 概率 ). : 





1 为 了 更 准确 
































般 的 决策 准则 记 为 g(D.， 同时 ， 














当 一 般 决策 准 



























































1 和 ee 


EITIX] = 
根据 条 件 期 望 








Plgl XxX) = = ©O)<PlglX) = 日 ). 
因此 ， 在 所 有 





P(g(X) 一 8) 
的 性 质 ， 得 到 上 [1 










































































< PlguaP(X) = ©|X) = ElIyar|X]. 
< Elivarl 即 












































的 决策 准则 中 , 最 大 后 验 准则 使 得 做 正确 决定 的 总 概率 达到 最 大 . 注意 这 里 讨论 的 日 是 离散 的 . 
契 x 时 ， 若 日 连续 , 则 在 任何 准 




















则 下 做 出 正确 决定 的 概率 都 是 0. 








在 贝 叶 斯 准则 下 的 后 验 分 布 有 一 条 计算 上 的 捷径 :对 所 有 的 9 分 母 都 一 样 ， 


的 观测 值 决定 ， 因 此 ,为 了 让 后 验 概率 达到 最 大 ， 在 © 和 7 各 离散 的 情况 下 A 








遍 的 贝 叶 斯 推断 方法 , 并 将 之 应 用 在 点 估计 和 假设 检验 问题 
记 为 多 使 得 后 验 分 布 列 Pelxtelz)( 若 日 连 


表述 这 一 问题 ， 我 们 考虑 一 个 基于 x 的 观测 值 的 一 般 决策 准则 ， 即 选择 一 个 8 的 取 值 ， 将 这 个 一 
记 最 大 后 验 准 则 为 9AEAP( 小 用 了 和 AIAP 分 别 表 示 相 应 的 伯 努 利 随 机 变量 


ES 


则 (相应 的 ， 最 大 后 验 准 则 ) 正确 的 时 候 ，7 的 取 值 为 1 (相应 地 ，1MAP 的 取 值 为 1)， 因 此 事件 7 = 
日 是 一 样 的 ， 对 于 9MAP 也 是 如 此 . i E 则 的 定义 ， 对 于 每 个 可 能 实现 的 饵 





SIL 
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找 9 使 得 Pel9)Ppxlelzl9) 的 数值 达到 最 大 ,在 日 或 工 连续 的 时 候 也 有 类 似 的 表达 . 
这 里 没有 必要 去 计算 分 母 . 


最 大 后 验 概 率 (MAP) 准则 


。 给 定 x 的 观测 值 , 最 大 后 验 概率 准则 是 指 在 所 有 的 9 中 寻找 9 使 得 后 验 分 
布 Pelxtelz) (车 日 离散 ) 或 Jelxtelz) (车 日 连续 ) 达到 最 大 值 . 


等 价 地 , 最 大 后 验 概 率 准 则 是 在 所 有 9 中 找 9 使 得 下 面 函 数值 达到 最 大 : 


pel9)pxlel7l9) (© 和 了 均 离散 )， 








pel9)fxlel7l9) ”(e 离散 ，X 连续 )， 
fe(9)pxlel7|9) (〈e 连 续 ， 和 离散 )， 
je(g)juetzl9) (@ 和 二 均 连 续 )， 
。 如 果 日 只 取 有 限 个 数值 , 则 最 大 后 验 概率 准则 (在 所 有 决策 准则 中 ) 使 得 选择 
错误 假设 的 概率 达到 最 小 . 无 论 是 在 给 定 观 测 值 x 的 情况 下 , 犯错 误 的 条 件 概 
率 ， 或 者 是 犯错 误 的 无 条 件 概 率 ， 这 个 准则 都 是 正确 的 . 
下 面 我 们 通过 回顾 前 面 的 几 个 例子 来 解释 最 大 后 验 概率 准则 . 
例 8. 3( 续 ) 设 © 是 正 态 随机 变量 ， 均 值 为 zo, 方差 为 吗 给 定 6 的 取 值 0, 观察 
到 一 些 随 机 变量 六 = (Xi1,… ,Xn), 它 的 分 量 是 相互 独立 的 正 态 随机 变量 ， 均 值 为 9; 方 


差分 别 为 ?"… ,7. 已 经 发 现 后 验 概率 分 布 密度 是 均值 为 w 方差 为 v 的 正 态 分 布 ， 
其 中 w 和 v 的 表达 式 为 








n 1 了 
2 7i0 Ti / Oi 1 


im 一 EIOIX 一 I| 一 - 了 ， 1 一 varlO|X 一 工 ) 一 


2ico 1/oi > 201/oi 
由 于 正 态 分 布 的 概率 密度 函数 在 均值 处 取 最 大 值 , 最 大 后 验 概 率 估计 为 6 = m. 


例 8. 5( 续 ) 在 这 个 例子 中 ， 参 数 日 取 值 为 1 和 2, 分 别 代 表 垃 圾 邮件 和 正常 邮件 ， 各 
自 取 值 的 概率 分 别 为 Pel1) 和 pel2). Xi 是 伯 努 利 随机 变量 , 用 于 定义 词 wi 是 否 出 现 
在 信息 中 ， 即 当 wi 出 现时 , Xi = 二 否则 Xi = 0， 我 们 已 经 计算 得 到 垃圾 邮件 和 正常 邮 
件 的 后 验 概率 ， 即 














| Jo(m) Tl, px elrilm) 
PI = ml|X1 二 Tl1,"**， Xn = Tan} -== I 2 a | 和? m= 
2 -1 pelj) Tl; i DPX,elTi 7 
1,2. 


现在 我 们 想 根据 啊 应 向 量 (71,… ,zn) 来 判断 一 封 邮件 是 垃圾 还 是 正常 的 邮件 . 最 大 后 
验 概率 准则 是 这 样 判断 的 , 如 果 下 面 式 子 成 立 , 则 判断 该 邮件 为 垃圾 邮件 : 


P(© =1X1 = 71,.… ,Xn = 1n) > PP(O =2|X1 = 711,-… ,Xn = Tn), 


ze)] pxilefzil1) > pe(2) [I pxelri|2). 
1 这 1 


8.2.1 点 估计 


在 一 个 估计 问题 中 ， 给 定 了 的 观测 值 五 。 X 提供 的 所 有 相关 信息 
而 另 一 方面 ， 我 们 对 概括 了 后 验 性 质 的 某 些 量 兴趣 . 比如 ， 点 估计 是 一 个 数值 , 它 
表达 了 我 们 关于 98 取 值 的 最 好 猜测 . 


先 来 介绍 一 下 有 关 估计 的 概念 和 术语 ， 为 简单 起 见 , 假设 日 是 一 维 的 ， 但 是 这 里 讨论 

的 方法 同样 适用 于 多 维 ， 估计 值 指 的 是 在 得 到 实际 观察 值 x 的 基础 上 我 们 选择 的 6 

的 数值 . 9 的 数值 是 由 观测 值 x 的 某 些 函 数 8 决定 的 , 即 4= gl7)， 随 机 变量 

也 称 为 估计 量 ， 之 所 以 说 日 是 随机 变量 是 因为 估计 的 结果 由 随机 的 观测 值 
t 


利用 不 同 的 函数 g 可 以 构造 不 同 的 估计 量 , 其 中 总 有 一 些 会 是 比较 好 的 估计 ， 举 一 个 
极端 的 例子 , 考虑 函数 gl7) 三 0， 估 计量 © 三 0 根本 没有 利用 到 数据 ， 因 此 并 不 是 一 
个 好 的 估计 . 目前 有 两 个 最 流行 的 估计 量 . 


(a) 最 大 后 验 概 率 估 计量 .观测 到 x 在 所 有 的 9 中 选 9 使 得 后 验 分 布 达 到 最 大 , 当 
有 很 多 这 样 的 取 值 时 ,6 可 在 备 选 量 中 任意 选 定 . 


(bp) 条 件 期 望 估计 量 ， 曾 在 4. 3 节 中 介绍 . 这 里 选 定 的 估计 量 为 6= El8|X = 


条 件 期 望 估 计量 将 在 8. 3 节 仔细 讨论 . 届时 将 称 它 为 “最 小 均 方 (LMS) 估计 ”， 因 为 它 有 
个 很 重要 的 性 质 ， 在 所 有 估计 量 中 使 均 方 误差 达到 最 小 (后 面 会 讨论 ). 这 里 有 两 条 关于 
最 大 后 验 概率 估计 量 的 注释 . 


(a) 如 果 日 的 后 验 分 布 关于 (条 件 ) 均值 对 称 并 且 是 单 峰 的 [此 时 , @ 的 后 验 分 布 列 (或 
后 验 概率 密度 函数 ) 只 有 一 个 最 大 值 ], 并 且 最 大 值 在 均值 处 取 到 ， 这 时 最 大 后 验 概 率 估 
计量 和 条 件 期 望 估计 量 恰好 一 样 。 比如 例 8. 3 中 , 后 验 分 布 保持 为 正 态 的 情况 . 


(b) 当 日 是 连续 型 变量 , 有 些 时 候 最 大 后 验 概 率 估计 量 6 的 具体 值 可 以 通过 分 析 的 方 

法 得 到 . 比如 在 对 9 没有 限制 的 情况 下 , 将 felx(9|z)( 或 log felxt9lz) ) 的 导数 取 为 0， 

人 由 方程 解 出 8 即 可 .但 是 在 其 他 情况 下 ， 可 能 会 需要 通过 数值 计算 的 
寻 . 



















































































点 估计 
。 估 计量 是 一 个 形式 为 9 = 9(X) 的 随机 变量 , 其 中 & 为 某 些 函数 ， 不 同 的 & 
形成 不 同 的 估计 量 . 





。 当 观测 的 随机 变量 了 的 值 x 得 到 以 后 , 就 得 到 估计 量 © = g(X) 的 取 值 6 
我 们 称 之 为 估计 值 . 


。 一旦 观测 到 了 的 取 值 % 则 最 大 后 验 概率 估计 量 就 赋予 估计 0 一 个 值 , 它 是 
在 所 有 9 中 使 得 后 验 分 布 达 到 最 大 时 所 对 应 的 参数 值 . 


。 一 旦 观测 到 7 的 取 值 % 条件 期 望 佑 计量 赋予 估计 6 的 值 是 PI9|X = 本 


例 8.7 考虑 例 8. 2 中 朱丽叶 第 一 次 约会 迟到 的 随机 变量 XX 服从 区 间 |0,9] 上 的 均 
匀 分 布 ， 且 参数 © 是 未 知 随机 变量 , 其 先 验 概率 密度 函数 fe 为 [0, 1] 上 的 均匀 分 布 
(随机 变量 9 的 单位 是 小 时 ). 在 那个 例子 中 ， 对 任意 的 zs 各 ,也 后 验 概率 密度 函数 


下 





二。 部 
falx (Oe) = 1 DTiog 
0， 其 他 . 





对 于 给 定 的 x felx(9|7) 在 日 的 取 值 范围 ?, 直 中 随 9 增 大 而 减 小 ， 因 而 最 大 后 验 概 
率 估计 就 是 工 注 意 这 是 一 个 很 “乐观 ”的 估计 . 如 果 朱 丽 叶 在 第 一 次 约会 时 只 迟到 了 
一 小 会 儿 ( zs0 ), 则 未 来 约会 迟到 时 间 的 估计 是 很 小 的 . 


而 条 件 期 望 估计 就 没有 这 么 乐观 了 .事实 上 ， 有 











l 1 一 了 
E[O|X = 了 ] = 一 一 d0 = 一 一 一 . 
Jr 09:|logz| |logz| 


图 8. 4 描绘 了 两 个 估计 量 随 着 x 变化 的 函数 . 可 以 看 出 对 任意 的 迟到 时 间 &%E[eIA = 了 比 日 的 最 大 
后 验 概率 估计 要 大 . 





















































最 大 后 验 概率 估计 
”条件 期 望 估计 





0 0.2 0.4 0.6 0.8 1 


图 8.4 例 8.7 中 ,最 大 后 验 概率 估计 和 条 件 期 望 估计 的 比较 


例 8.8 考虑 例 8.4 中 的 模型 ， 了 为 观测 到 的 正面 朝 上 的 总 次 数 . 假设 日 的 先 验 分 布 
ee 是 [0, 1] 上 的 均匀 分 布 . 下 面 来 计算 日 的 最 大 后 验 概率 估计 和 条 件 期 
望 估计 . 


如 例 8. 4 中 所 示 ， 当 X= 上 时 日 的 后 验 概 率 密 度 函数 服从 参数 为 a = 大 二 1 和 
3 二 nn 一 上 十 1 的 贝塔 分 布 : 


1 
er en de 
Py 匣 ge lol] 


0, 其 他 . 


后 验 概率 密度 函数 是 单 峰 的 ， 为 了 确定 峰值 的 位 置 ， 将 表达 式 (1 一 0)”" 看 作 随 9 
变化 而 变化 的 函数 . 令 概 率 密度 函数 的 导数 取 值 为 0， 得 到 方程 


KBK-L1 一 的 "一 (7 一 大 OK 一 01 一 0. 





由 此 推出 





这 就 是 最 大 后 验 概率 估计 . 
为 得 到 条 件 期 望 估计 ， 用 贝塔 分 布 的 期 望 公式 ( 见 例 8. 4) : 
k+l1 


nn 二 2 


注意 ， 当 2 的 取 值 很 大 时 , 最 大 后 验 概 率 估计 和 条 件 期 望 估计 是 基本 一 致 的 . 


如 果 没 有 附加 的 假设 条 件 ， 点 估计 的 准确 性 是 没有 多 大 保障 的 .举例 来 说 , 最 大 后 验 概 
率 估 计 可 能 和 后 验 分 布 的 主体 部 分 相距 甚 远 ， 因 此 , 总 希望 得 到 关于 估计 的 一 些 附加 

信息 ， 例 如 条 件 均 方 误差 (6 一 6) 和 = 可 在 8.3 节 中 ,我 们 将 要 进一步 讨论 这 个 问 

题 ， 特别 地 , 要 通过 对 前 面 两 个 例子 的 回顾 来 分 别 计算 最 大 后 验 概率 估计 和 条 件 期 望 估 
计 的 条 件 均 方 误差 . 


8. 2. 2 假设 检验 


在 一 个 假设 检验 问题 中 ,8 取 负 … ,中 的 一 个 值 , 其 中 ww 是 一 个 取 值 较 小 的 整数 . 
经 常 处 理 的 问题 是 m = 2, 就 是 二 重 假 设 检验 问题 ， 称 事件 {9 = 4 上 为 第 7 个 假设 ， 
记 为 Hi. 


一 旦 观测 到 的 取 值 就 可 以 用 贝 叶 斯 准则 对 每 个 7 计算 后 验 概率 

P(e = 6 =7) = pelx(B|z). 接着 根据 最 大 后 验 概率 准则 选 出 后 验 概率 最 大 的 假设 . (如 
果 几 个 假设 都 拥有 相同 的 最 大 后 验 概率 ， 可 以 随机 选择 . ) 正如 前 面 提 到 的 , 最 大 后 验 概 
率 准 则 在 所 有 准则 中 使 得 做 正确 决定 的 概率 达到 最 大 , 从 这 个 意义 上 米 说 它 是 最 理 相 


假设 检验 的 最 大 后 验 概 率 准则 
。 给 定 观测 值 x 最 大 后 验 概率 准则 选择 使 后 验 概率 FL = 名 六 =7) 最 大 的 假 


设 Hi. 


E[O|X =f= 









































等 价 地 , 也 就 是 使 Pet9i)pxle(7|9)(X 离散 ) 或 Pel%)fxlelz9) (XY 连续) 达到 最 大 
的 假设 Hi 
。 与 其 他 决策 准则 相 比 , 最 大 后 验 概率 准则 对 任意 观测 值 x 使 得 选择 错误 假设 的 
概率 , 也 即 犯 错 的 概率 达到 最 小 . 
有 了 最 大 后 验 概率 准则 , 就 可 以 计算 相应 的 做 出 正确 决策 (或 错误 决策 ) 的 概率 ， 它 是 关 
于 x 的 函数 . 特别 地 ， 如 果 gaPltZ) 是 最 大 后 验 概 率 准 则 在 X = z 的 情况 下 选 出 来 的 
假设 , 那么 做 出 正确 决策 的 概率 是 


进一步 地 , Si 是 按 最 大 后 验 概 率 准 则 选择 假设 Hi 时 所 对 应 的 x 的 集合 , 则 做 出 正确 
决策 的 总 概率 为 














P(© = guap(X)) = > P(© = 6,,.X € 5;). 


相应 犯错 误 的 概率 是 


P(O #20,.X €S,). 
1 


下 面 是 一 个 典型 的 用 最 大 后 验 概率 准则 计算 二 重 假 设 的 例子 . 


例 8.9 有 两 枚 不 均匀 的 硬币 ， 记 为 硬币 1 和 硬币 2, 正面 朝 上 的 概率 分 别 为 PH 和 Pz. 
随机 选择 一 枚 硬币 (每 枚 有 相同 的 入 选 概率 ) , 希望 在 一 次 抛 硬 币 结果 的 基础 上 判断 这 枚 
硬币 是 硬币 1 还 是 硬币 2. 令 86=1 和 9 =2 分 别 代表 假设 “选择 硬币 1” 和 “选择 硬币 
2”. 记 大 1 表示 硬币 正面 朝 上 , 大 0 表示 反面 朝 上 . 


利用 最 大 后 验 概率 准则 , 比较 PellD)pxjelz|l) 和 pe(2)Pxletz|2) 的 大 小 ， 并 且 认 为 所 投 硬 
币 就 是 表达 式 取 值 相应 较 大 的 那个 . 由 于 Pel1) = Pel2) = 1/2, 只 须 比 较 Pxletz|1) 和 
Pxletz|2). 比如 车 Pi = 0.46, po = 0.52， 投 搓 结 果 是 反面 ， 注 意 到 
P( 反 面 |9=D=-1-046>1-052=P( 反 面 |9=2， 

因而 认为 所 抛掷 的 是 硬币 1. 
假设 现在 将 所 选 的 人 硬币 投 据 了 次 ， 了 是 正面 朝 上 的 次 数 . 以 前 的 做 法 仍然 正确 , 根据 
最 大 后 验 概率 准则 选择 观测 结果 最 有 可 能 发 生 的 假设 (建立 在 假设 Pet = pel2) = 1/2 
的 基础 上 ) .因而 当 X= 时 ， 知 

pel(l — pn)"* ~> pt(1 — po) (A, 
则 认为 8 = 1 否则 ， 认 为 6 = 2. 图 8. 5 解释 了 最 大 后 验 概率 准则 . 
如 图 8. 5 中 所 示 , 最 大 后 验 概 率 准 则 的 特征 是 典型 的 二 重 假设 检验 问题 的 决策 准则 : 它 
的 实现 是 将 观测 空间 划分 为 两 块 没 有 交集 的 子 区 域 , 在 每 个 子 区 域 中 接受 一 种 假设 .在 
这 个 例子 中 , 最 大 后 验 概 率 准 则 通过 k* 的 划分 而 得 以 实现 : 当天 三 太 时 接受 6= 1 
否则 接受 9 = 2. 犯错 误 的 总 概率 由 全 概率 公式 计算 可 得 ; 


P( 错 误 ) =P(B =1,X >k*)+P(8 =2,X <k") 














nn ke 
=pe(1l) > ce(k)pt(l— pi)" +pe(2) 》 c(k)ps(l — p2)™* 
大 一 天 十 k==1 


、 7 KY 

1 到 . 入 一 队 
-3( Dc(k)pi(l—p)" + Yc(k)ps(l — p2) 中 

站 


一 上 ”十 工 k=1 





其 中 < 是 正规 范 化 常数 ， 图 8.6 给 出 了 一 类 门限 决策 准则 的 犯错 误 的 概率 ， 所 谓 
门限 决策 准则 是 由 一 个 kr* 决定 的 决策 准则 ， 当 尺 & 高 时 接受 8 = 1， 否 则 接受 





9 = 2， 因 此 门限 决策 准则 的 犯错 误 的 概率 是 关于 k* 的 函数 .最 大 后 验 概率 准则 是 一 
个 特殊 的 门限 决策 准则 ， 此 例 中 产 = 24， 这 个 准则 使 得 做 正确 决定 的 概率 达到 最 大 ， 
从 而 犯错 的 概率 达到 最 小 . 
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后 验 概率 
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选择 @=1 选择 @=?2 


图 8.5 最 大 后 验 概率 准则 在 例 8.9 中 的 应 用 ， 其 中 ，n = 50，P1 = 0.46，p2 = 0.52 
， 计 算 后 验 概率 
P(e =ilX =k) = (kpeliP(X = k=) 
= c(k)pe(i)pt (1 — pi)™*, 1= 1,2, 


其 中 cl*) 是 正规 范 化 常数 ， 选 择 有 最 大 后 验 概率 的 假设 8@ =i. 由 于 例 中 
pell) = pel2) = 1/2， 按 最 大 后 验 概率 准则 , 只 须 选择 使 (1 一 Pi)” ”达到 最 大 的 假设 
9 = ;i， 在 例 8. 9 中 ,fr* =24， 当 <hr* 时 接受 9 = 了 否则 接受 8 二 2 


下 面 介 绍 的 是 通信 工程 中 的 一 个 经 典 例子 . 
例 8. 10( 信 号 检测 和 匹配 的 滤波 器 )” 某 发 射 机 传送 两 条 可 能 的 信息 中 的 一 条 . 如 果 传 
送 的 是 信息 1 则 6 = 1， 否 则 8 = 2. 假设 两 条 信息 传送 的 概率 是 相等 的 ， 即 


pell) 一 pel2) 一 1/2. 











为 了 提高 抗 噪声 的 能 力 ， 发 射 机 使 用 一 种 信号 使 得 传送 信息 的 时 间 延 长 . 实际 上 ， 发 身 
机 发 出 信号 5= (5S1,… ,Snj， 其 中 Si 为 实数 . 若 日 = 1( 或 6 = 2), 则 5 是 确定 的 序列 
(a,… ,an) (或 ti ,bn)) .假设 两 个 备 选 信息 有 相同 的 “能 量 ”, 即 

导 二 十 史 二 器 十 … 二 可 ,接收 机 能 够 观测 到 传送 的 信号 ， 但 是 伴随 着 附加 噪声 的 干 
扰 ， 具 体 地 , 它 的 观测 值 为 











Xi= St+Wi, i=1,.…,n, 


其 中 假设 Wi 服从 标准 正 态 分 布 ， 互 相 独 立 ， 且 与 信号 独立 . 
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最 大 后 验 概率 卫衣 
准则 的 阔 值 
图 8.6 犯错 的 概率 随 门 限 决 策 准 则 中 的 阔 值 k*( 不 < h” 时 接受 9 = 1 否则 接受 
9 =2 ) 变 化 的 图 示 . 和 图 8. 5 一 样 , 相关 的 参数 为 n = 50, Pi = 0.46, pz = 0.52， 最 大 后 
验 概率 准则 的 阔 值 为 k* = 24, 此 时 犯错 的 概率 最 小 


在 9=1 的 假设 下 , Xi 是 独立 正 态 随机 变量 , 均值 为 & 方差 为 !， 因 此 








, 1 1 \2 1 ,2 jo 
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lelz| CE 
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[ 27)7 
根据 贝 叶 斯 准则 ， 第 一 条 信息 被 传送 的 概率 是 


exp{ 一 ((zl 一 al)2 + :+ (zn — an)2)/2) 


exp{—({(z1 — a1)? + + (zn Co an))/2} + exp{—((z1C—01) +…+ (zn ba)?)/2} 


展开 指数 式 的 二 次 项 , 并 利用 假设 呈 十 … 十 三 好 十 … 十 的， 表达 式 化 简 为 


P(© =1|X =7)= pextllzr) = 并 a 
t 


(aiII 十 … 十 anTn) | elbirl 十 … 十 bnzn) 


计算 PI9 =2|X =7) 的 公式 也 是 类 似 的 , 把 分 子 中 的 ai 换 作 志 即 可 . 
根据 最 大 后 验 概 率 准 则 ， 要 选择 使 后 验 概 率 最 大 的 假设 ， 即 





选 日 一 1. 如 果 i=1 | 


= i 一 ] 


选 = 2 如 果 


(如 果 内 积 相等 ， 则 随机 选择 一 个 假设 . ) 这 种 特殊 的 用 来 判断 传送 信号 的 结构 称 为 匹配 
的 滤波 器 : 根据 得 到 的 信号 (71,… ,zn) 计算 内 积 Zelaizi 和 F107 选 出 取 值 高 的 
作为 假设 (也 就 是 最 佳 “ 匹 配 ”). 

这 个 例子 可 以 推广 到 m > 2 的 情形 ， 其 中 每 条 信息 传送 的 概率 是 相等 的 , 假设 对 于 信 
息 发射 机 发 出 确定 的 信号 (aix,… ,ank), 对 于 每 个 (中 十 … 二 (ax 都 相等 . 这 
样 在 相同 的 噪声 模型 下 ， 通 过 类 似 的 计算 , 最 大 后 验 概率 准则 解码 得 到 的 信号 

(z1,… ,zn) 将 会 是 Fiaakzi 取 值 最 大 的 信号 大 








8.3 贝 叶 斯 最 小 均 方 估计 


本 节 将 详细 讨论 条 件 期 望 估 计量 .特别 地 , 它 具 有 使 可 能 的 均 方 误差 达到 最 小 的 性 质 
(最 小 均 方 , 简称 LMS〉. 我 们 还 将 讨论 它 的 一 些 其 他 性 质 . 


考虑 在 没有 观测 值 了 的 情况 下 用 常数 6 来 估计 日 这 个 简单 的 问题 . 信 计 误差 9 一 © 
是 随机 的 (因为 日 是 随机 的 ), 但 是 均 方 误差 (96 一 全] 是 一 个 由 6 所 决定 的 数 , 可 以 
达到 最 小 ， 在 这 种 准则 下 ， 最 好 的 估计 是 &= El9， 下 面 来 验证 这 一 结论 . 


对 任何 估计 9， 有 


E[(e 一 的 ] =var(e —0)+(E(©— 0) = var(©)+ (E[O] 一 多 2 





第 一 个 等 号 用 的 是 公式 BIZ ] = var(2Z) + (EI2]) ,第 二 个 等 号 成 立 是 因为 减 去 常数 6 不 
改变 随机 变量 日 的 方差. 现在 注意 到 var(6) 与 6 是 无 关 的 . 因此 只 要 选择 使 
(EIe] 一 9)” 达到 最 小 的 6 也 就 是 = E[e]( 见 图 8. 7) 








估计 的 均 方 误差 
E[(O—0)-]=var(©)+(E[8]—) 





E[G] 6 


图 8.7 均 方 误差 El(e - 的 ] 是 关于 估计 值 6 的 二 次 函数 , 在 《一 [9] 时 达到 最 小 . 
均 方 误差 的 最 小 值 是 var(e) 

假设 现在 我 们 由 观测 值 来 估计 e@, 同时 要 求 均 方 误差 最 小 ， 一 旦 得 到 的 值 x 情 
况 就 变 得 和 之 前 讨论 的 一 样 ， 但 是 我 们 已 经 进入 一 个 新 的 “世界 ”, 就 是 所 有 的 事情 都 
取决 于 X = zx 所 以 可 以 把 之 前 的 结论 拿 过 来 并 且 得 到 结论 :， 条件 期 望 Elelx = 可 在 
所 有 常数 6 中 使 得 条 件 均 方 误差 EI(e 一 他 |X = 了 ] 达到 最 小 . 











广义 上 来 说 ， 估 计量 为 9A) 的 ( 非 条 件 ) 均 方 估计 误差 定义 为 

E[(e — g(xX)). 
如 果 我 们 将 EI6|X] 视 为 了 的 函数 或 估计 量 , 下 面 的 分 析 说 明 在 所 有 可 能 的 估计 量 中 ， 
gl 六) = EI6|X] 使 得 均 方 误差 最 小 .? 
2 对 于 任意 给 定 了 的 取 值 % 9(T) 是 一 个 数 ， 因 而 。 
E[(© — ElO|X =7])|X=7| <EI(©— g(r))|X =7|. 
因此 
E[(e — PIe|X])|X] < El(e© — g(X))*|X], 
这 是 


是 关于 两 个 随机 变量 (4 的 函数 ) 的 不 等 式 . 对 两 边 取 期 望 再 用 全 期 望 公式 ， 得 到 结论 
E[(© — E[I©|X])’] < E[(© — g(xX))], 


对 于 所 有 估计 量 9T) 成 立 . 
关于 最 小 均 方 估计 的 重要 事实 
。 在 没有 观测 值 的 情况 下 ， 当 9 = El8] 时 El(6 一 9)] 达到 最 小 : 


El(e 一 Ele] 让 <E[(e 一 6 对 所 有 6 成 立 . 







































































。 给 定 了 的 取 值 x 当 6=EeIX= 了 可 时 了 I(e- 扩 | 和 = 可 达到 最 小 : 
E[(e — E[O|X=7z]) X=7z]<El(O- 人 :|X=7z] 对 所 有 6 成 立 . 


ee a 
E[(6 一 g(X))] 达到 最 小 : 


E[(e -EIO|X])] < EI(© -g(X))] 对 所 有 估计 量 9(X) 成 立 . 


例 8.11 设 日 服从 [4，10] 上 的 均匀 分 布 . 假设 在 观测 日 时 伴 有 随机 误差 灰 特别 
地 ， 观 测 到 随机 变量 的 值 是 


太一 日 十 什 ， 
假设 是 服从 [-1，1] 上 的 均匀 分 布 且 与 日 独立 . 
为 计算 ElelX = 对 注意 到 fe(9) = 1/6 当 4<g<10, 否 则 fe(0)=0, 在 @ 取 9 的 
情况 下 ,了 就 是 9+W， 并 且 服 从 于 9 一 1, 9+1] 区 间 上 的 均匀 分 布 ， 因 此 ， 联 合 概率 
密度 函数 为 


fe.x(0,7) = fel9)fxjelz|9) = 


上 式 当 4<9<10 上 且 89-1<z<9+1 时 成 立 , 对 于 其 他 (9, z) 取 值 为 0. 图 8. 8 右边 的 
平行 四 边 形 是 fe,x(9,7) 取 值 不 为 0 的 (9,7) 取 值 的 集合 





ee et 
X=O+W 
TV 在 区 间 [-1. ]] 
上 均匀 分 布 
由 






最 小 均 力 估计 
E[O|X 土 





图 8.8 例 8.11 中 的 概率 密度 函数 .9 和 了 的 联合 概率 密度 函数 是 在 右 图 中 平行 四 
边 形 内 的 均匀 分 布 . 给 定 随机 变量 X = 68+W 的 取 值 x ,ee 的 最 小 均 方 估计 由 x 和 
右边 所 示 的 分 段 线 性 函数 决定 

给 定 X =z 后 验 概率 密度 函数 felx 相应 于 平行 四 边 形 的 纵 断 面 是 均匀 分 布 的 . 因此 
El = |] 是 断面 的 中 点 , 在 这 个 例子 中 恰好 是 x 的 分 段 线性 函数 ， 在 给 定 X =z 的 
情况 下 , 均 方 误差 定义 为 了 Le 一 ELIS|X]) |X =z] ,是 日 的 条 件 方差 . 它 是 x 的 函数 ， 
解释 见 图 8. 9. 





估计 的 条 件 





图 8.9 例 8.11 中 的 估计 的 条 件 均 方 误差 ， 它 是 关于 了 的 观测 值 x 的 函数 . 注意 ， 
有 一 些 观测 值 要 优 于 其 他 的 .比如 ， 若 下 3, 则 可 确定 © =4 且 条 件 均 方 误差 为 0 


例 8.12 考虑 例 8. 7 中 朱丽叶 第 一 次 约会 中 迟到 时 间 服 从 [0,9] 区 间 上 均匀 分 布 的 随 
机 变量 下 这 里 日 是 一 个 未 知 的 随机 变量 , 它 的 先 验 分 布 fe 服从 [0, 1] 上 的 均匀 分 布 . 
在 那个 例子 中 , 已 知 最 大 后 验 概率 估计 等 于 x 且 最 小 均 方 估计 是 








l 1l—zx 
E[O|X = 7] = 0————d0 = 一 一 一 . 
90: |logz| |logz| 





下 面 来 计算 最 大 后 验 概率 估计 和 最 小 均 方 估计 的 条 件 均 方 误 差 . 给 定 X = z, 对 于 任意 


1 








1 
[0 -IX=9= | (9-0) oezlde 
8- 208 十 
) a 
p_i, 1- 
| logz| 2| logz| 


对 于 最 大 后 验 概率 估计 ,9 = rz， 条 件 均 方 误差 
2 3z2 —4r+1 
2|logz| 


E[((9— 8)|X=7=7 


og z| 条 件 均 方 误差 











对 于 最 小 均 方 估计 ,9 = (1 一 z)/ 
人 人 
F 均 方 误差 . 可 以 看 出 最 小 均 方 估计 有 
性 能 的 体现 . 








8. 10 会 制 了 两 种 信 计 (最 大 后 验 概率 信 计 和 最 小 均 方 售 计 ) 的 条 们 
一 致 的 相对 较 小 的 均 方 误 差 . 这 是 最 小 均 方 佑 计量 的 总 体 优良 
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一 一 -最 大 后 验 概率 估计 了 
: 最 小 均 方 估计 
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图 8. 10 例 8. 12 中 最 大 后 验 概率 估计 和 最 小 均 方 估计 的 比较 


例 8. 13 ”考虑 例 8. 8 中 的 模型 , 观测 次 投掷 一 枚 不 均匀 的 硬币 正面 彰 上 的 次 数 不 假 
设 e(FE 面 彰 上 的 概率 ) 的 先 验 分 布 是 [0, 1] 上 的 均匀 分 布 . 在 那个 例子 中 ， 当 碟 = 大 
时 , 后 验 密度 是 参数 a = 上 +1 和 5=n 一 上 十 1 的 贝塔 密度 , 且 最 大 后 验 概率 等 于 /7. 
通过 贝塔 密度 的 矩 佑 计 公 式 (参见 例 8. 4), 得 到 


十 1 十 2 (大 \ 
EIO™|X = 有 = ( 1 )… (大 十 21m) 


{n+ 2)(n+3).…(n+m+1)’ 





特别 地 ， 最 小 均 方 估计 为 
k+l1 


nn 二 +2 


ElelX = 人 = 





给 定 = 有 任意 估计 6 的 条 件 均 方 误差 是 
E[(9 — 8)*|X = = 20EIO|X = 可 + EleO|X = 村 
k+l1 (k+l1)(k+2) 


-0 
= 一 20 一 一 一 一 
7 十 2 (n+t+2)(n+t3) 





最 大 后 验 概率 估计 的 条 件 均 方 误差 是 


E[(G — 8)*|X = h] =E GG 一 ej lx 一 4 
Ek k+l (k+l1)(k+2) 
n n nt+2 (n+2)(n+3) 
最 小 均 方 估计 的 条 件 均 方 误 差 是 
E[(9 — 8)*|X =#] =E[O|X =#] — (EI[O|X = A]) 
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(十 2)(m 十 3) 





nn 十 2 








i 的 例子 一 样 , 最 小 均 方 估计 有 一 致 的 相对 较 





























图 8. 11 画 出 了 投掷 左 15 次 的 结果 .值得 注意 的 是 ， 和 前 本 














小 的 条 件 均 方 误差 
估计 值 





0 5 10 1: 
天 


图 8.11 在 投 括 15 次 CUF=15) 的 情况 下 , 最 大 后 验 概 率 估计 和 最 小 均 方 估计 及 其 条 件 
均 方 误差 之 比较 (参见 例 8. 13) 


8. 3. 1 估计 误差 的 一 些 性 质 
将 最 小 均 方 估计 和 相应 的 估计 误差 分 别 记 为 


= 了 EIeIX]，6=e-e， 


随机 变量 6 和 © 有 一 些 很 有 用 的 性 质 , 它们 在 4. 3 节 中 已 经 推导 得 到 , 而 在 这 里 只 是 简 
单 地 重复 引述 如 下 (注意 记号 上 的 变化 , 在 4. 3 节 中 ， 观 测 值 记 为 待 估 参 数 记 为 隐 
而 在 这 里 却 分 别 记 为 了 和 @). 











估计 误差 的 性 质 
。 估计 误差 © 是 无 偏 的 , 具体 说 来 它 的 条 件 期 望 和 非 条 件 期 望都 是 0: 
EI6] =0， E[S|X =z]=0， 对 所 有 x 


。 估 计 误 差 6 和 估计 量 6 是 不 相关 的 : 
cov(O.0) = 0. 

。 昌 的 方差 可 以 分 解 为 
var(©) = var(©) + var(©). 


例 8.14 称 观测 了 是 无 信息 的 , 如 果 均 方 误差 El6] = var(6) 和 var(6)(e 的 无 条 件 
方差) 是 一 样 的 . 什么 时 候 会 出 现 这 样 的 情形 呢 ? 


利用 公式 
var(©) = var(©) + var(©), 


由 上 式 看 出 了 是 无 信息 的 当 且 仅 当 var(6) = 0. 一 个 随机 变量 的 方差 为 0 当 且 仅 当 该 随 
机 变量 是 一 个 常数 ， 与 其 均值 相等 于 是 得 到 结论 了 是 无 信息 的 当 且 仪 当 估计 
9 = EI6|X] 与 EI6] 相等 ( 对 于 XY 的 任意 取 值 ). 


若 日 和 i 对 于 所 有 的 x 都 有 Fle|X = 可 = 下 很 直观 地 可 以 看 出 事实 


上 了 是 无 信息 的 . 反 过 来 却 不 成 立 ， 有 可 能 El6|X = 了 ] 总 是 等 于 常数 El6] ,但 是 8 
和 不 独立 . (你 能 移 这 一 个 合子 避 9] 


8. 3.2 多 次 观测 和 多 参数 情况 
前 面 的 讨论 都 是 建立 在 了 是 一 元 随机 变量 的 基础 之 上 , 但 是 完整 的 论证 和 结论 在 是 









































随机 向 量 X = (X1,… ,Xn) 时 也 适用 . 因此 ， 均 方 估计 误差 在 选 FI9|X1,… ,六 ] 作为 
估计 量 的 时 候 达 到 最 小 ， 即 
E[(e 一 EIe|X ,<E[I(e — g(X1,… , Xn) 


对 于 所 有 的 估计 量 g(X1,… ,Xn) 都 成 立 . 
这 就 对 一般 的 最 小 均 方 估计 给 出 了 完整 的 解决 方案 但 是 它 一 般 很 难 实现 , 主要 有 以 下 


一 些 原因 











(a) 为 计算 条 件 期 望 EI9|X1,… ,六 | 需要 建立 概率 模型 得 到 联合 概率 密度 函数 


Je 


(b) 即使 可 以 找到 联合 概率 密度 函数 , EI9| 和 Xi1,… ,Ad 可 能 是 一 个 关于 XDAXm 的 
很 复杂 的 函数 . 


因此 ， 实 际 中 常常 求助 于 条 件 期 望 的 近似 值 , 或 者 更 关注 于 那些 并 不 最 优 但 是 简单 而 易 
于 实现 的 估计 量 . 最 常用 的 方法 (在 8. 4 节 讨 论 ) 加 入 了 线性 估计 的 约束 . 


最 后 ， 我 们 考虑 估计 多 参数 91,… ,9m 的 情况 . 最 自然 的 是 考虑 准则 


ELLel 站 el)] ee E[(Onm, 二 Om)"), 





























我 们 的 目的 是 求 估 计量 91,… ,Bm, 使 得 上 式 在 一 切 估计 量 中 达到 最 小 . 但 是 这 与 寻找 
每 个 6i 使 得 EL(ei 一 8))] 达到 最 小 是 等 价 的 ， 因 此 , 多 参数 的 估计 问题 本 质 上 是 在 处 
理 个 单 参数 的 估计 问题， 对 于 每 个 参数 68i， 其 相应 的 最 小 均 方 估计 为 

9; = E[6i| 和 Xi,… ,Xn| ， 对 所 有 了 均 成 立 . 


8.4” 贝 叶 斯 线性 最 小 均 方 估计 


在 本 节 中 , 我 们 在 一 个 较 小 的 统计 量 的 集合 类 中 寻找 统计 量 使 得 均 方 误差 最 小 : 那些 观 
测 值 的 线性 函数 的 集合 类 .虽然 这 种 统计 量 会 导致 较 高 的 均 方 误差 , 但 是 在 实际 中 有 明 
显 的 优势 : 对 计算 要 求 简单 , 只 包括 均值 、 方 差 以 及 观测 与 参数 之 间 的 协 方差 . 在 最 大 
后 验 估计 量 和 最 小 均 方 估计 量 难以 计算 的 情况 下 , 这 是 个 很 有 用 的 替代 估计 量 . 


基于 观测 Xi ,xn 的 日 的 线性 估计 量 形式 为 




















© 一 alXl A anXn 十 已 
给 定 ad，… ,dn,b， 相 应 的 均 方 误差 是 
El(© alX1 一 … :一 QnXn b)3. 





线性 最 小 均 方 估计 选择 a1,… ,an,b 使 得 上 面 的 表达 式 取 最 小 值 . 我 们 首先 解决 n = 1 
的 情况 ， 然 后 再 将 解法 推广 . 

8.4.1 一 次 观测 的 线性 最 小 均 方 估 计 

现在 我 们 感 兴趣 的 问题 是 找到 昌 的 线性 估计 aX +b 使 得 均 方 误差 EL(e 一 aX 一 中 9 


达到 最 小 ， 假 设 已 经 选 好 了 a 如何 选 bp 呢 ? 这 个 问题 等 价 于 选择 常数 b 来 估计 随机 
变量 8 一 aX. 通过 8. 3 节 最 初 的 讨论 ， 最 好 的 选择 是 


b= EO—aX|= EO|— aE[X|. 
选择 了 2 之 后 ， 剩 下 的 问题 是 选择 a 使 得 下 面 的 表达 式 取 最 小 值 : 


E[(© — aX — E[©] + aE[X])]. 











将 表达 式 写 为 
var(O—aX)=0o8+aor+2cov(O, —aX) = 0%+ao% —2a.cov(O,X). 
其 中 ce 和 ox 分 别 是 @ 和 了 的 标准 差 , 且 
cov(O, X) = EI(© — E[O])(X — E[X])] 


是 © 和 了 的 协 方差 .为 使 varl6 一 aX)( 关 于 a 的 一 个 二 次 函数 ) 达 到 最 小 , 令 表达 式 
的 导数 为 0， 求 解 a. 得 到 





cov[O. bp ) POBGX Ue 
一 一 一 一 一 一 有 一 一 ; 
Ox Ox Ox 


于 


cov[(O. X) 


OeOX 
是 @ 和 了 的 相关 系数 .根据 a 的 选择 ， 所 选 线性 估计 量 9 的 均 方 估计 误差 是 
var( 日 一 ©) =0% 十 alo% — 2a: cov(O, X) 

=06 + 让 -2p poeox 
Ox Ox 

一 (1 一 P)o3. 

线性 最 小 均 方 估计 的 公式 
。 基 于 了 的 日 的 线性 最 小 均 方 估计 9 是 


cov{O, XX),.. 


A , - - Oe ，-- 
日 一 也 | 日 | 十 (X—EX|I)= E+ro—(X — EIX|), 
[9 var(X) [X]) = E[©] pe [X]) 





其 中 


cov(O.,X) 


OeOxX 
是 相关 系数 . 
所 得 均 方 估计 误差 是 


, 2\ 2 
{1— p Joe. 


线性 最 小 均 方 估计 的 公式 只 包括 均值 、 方 差 以 及 日 与 了 间 的 协 方差 . 更 进一步 ， 它 有 
个 直观 的 解释 .为 描述 准确 起 见 ， 假 设 相 关系 数 是 正 的 ， 估 计量 以 日 的 基本 估计 
EI6] 为 基础 ,通过 六 一 EF[X] 的 取 值 来 调整 .举例 来 说 ， 当 了 比 均值 大 , 则 了 与 8 之 
间 的 正 相 关系 数 告诉 我 们 预期 中 的 日 将 大 于 它 的 均值 . 因此 ， 估 计量 会 是 一 个 大 于 
El6] 的 取 值 .P 的 取 值 同样 也 会 影响 估计 的 质量 . 当 |p| 接近 1 的 时 候 , 两 个 随机 变量 高 
度 相 关 ， 了 解 了 将 帮助 我 们 准确 地 估计 @, 从 而 均 方 误差 也 比较 小 . 


最 后 注意 , 在 8. 3 节 中 提 到 的 估计 误差 的 性 质 对 于 8 的 线性 最 小 均 方 估计 量 仍然 成 立 
(参见 本 章 末 尾 的 习题 ). 

例 8.15 ”回顾 例 8.2、 例 8.7 和 例 8. 12 中 的 模型 , 说 的 是 朱丽叶 第 一 次 约会 中 迟到 时 间 
了 服从 区 间 |0,9] 上 均匀 分 布 ,这 里 日 是 一 个 未 知 的 随机 变量 , 它 的 先 验 分 布 fe 服从 
[0, 1] 上 的 均匀 分 布 . 下 面 来 求 基于 了 的 日 的 线性 最 小 均 方 估计 . 


利用 事实 EIX|6] = 9/2 和 重 期 望 法 则 ,了 的 期 望 值 是 











E[X] = E[E[X|e]] =E 目 二 下 


进一步 ， 利 用 全 方差 法 则 ( 同 第 4 章 例 4. 17 中 的 计算 ) ， 得 到 


var(X)= 3 
144 


现在 计算 了 和 eB 间 的 协 方差 , 根据 公式 


cov(O, X) = E[IOX] — E[O]E[X]. 


和 事实 
EI 二 Var( 晶 ) 十 (E[e])? 一 二 十 - 一 了 
于 是 有 
a Be i ©? 1 
EIOX| = EI[E[OX|e]| = E[OE[X|©]| =E | 3 





其 中 第 一 个 等 式 用 的 是 重 期 望 法 则 , 第 二 个 等 号 成 立 是 因为 对 所 有 的 9， 
Elle =0 = EOX|lO = 避 =bEIXIe = 中 


因此 


cov(e,X) = E[OX] — E[O]E[X] = 了 2 











线性 最 小 均 方 估计 量 是 








6 = RIG cov(O, XX) xX_ EX)- 1 1/24 x 1 四 6 2 
相应 的 条 件 均 方 误差 按照 例 8. 12 中 公式 计算 ， 


2 -9 “2[1—Z) _z2 
El(9— ©) IX=7r=0 -0 (1 7) 1 一 了 








|logz| 2|logz| 


再 将 9= (6/?)z 十 (2/17) 代入 上 式 , 就 得 到 条 件 均 方 误差 . 在 图 8. 12 中 , 我 们 将 线性 最 小 

均 方 估计 量 、 最 大 后 验 概率 估计 量 和 最 小 均 方 估计 量 ( 见 例 8. 2、 例 8. 7 和 例 8. 12) 放 在 

一 起 比较 . 注意 到 最 小 均 方 估计 量 和 线性 最 小 均 方 估计 量 在 图 中 大 部 分 感 兴趣 的 区 域 是 
一 致 的 , 相应 的 条 件 均 方 误差 也 是 如 此 . 而 最 大 后 验 概率 估计 量 与 其 他 两 个 估计 量 相 比 

很 明显 有 较 大 的 均 方 误差 . 当 x 趋 近 于 1 时 ， 线 性 最 小 均 方 估计 量 比 其 他 两 个 估计 量 的 
效果 要 差 , 有 的 甚至 给 出 9 > 1 的 估计 值 , 这 已 经 在 日 可 能 取 值 的 范围 之 外 了 . 


















































图 8.12 例 8. 15 中 三 个 估计 量 及 其 条 件 均 方 误差 的 比较 


例 8. 16 (不 均匀 硬币 的 线性 最 小 均 方 估计 ) ”再 考虑 例 8. 4、 例 8. 8 和 例 8. 13 中 提 到 的 

硬币 投掷 问题 , 现在 来 求 线性 最 小 均 方 估计 量 . 在 这 一 问题 中 , 随机 变量 @( 正 面 朝 上 的 
概率 ) 的 先 验 分 布 是 [0, 1] 上 的 均匀 分 布 . 将 一 枚 不 均匀 的 硬币 独立 地 投掷 次 ， 观 测 

0 丰 因 此 如 果 日 等 于 9, 那么 随机 变量 了 服从 参数 为 n 和 9 的 

二 项 分 布 . 


分 别 计算 线性 最 小 均 方 估计 量 公 式 中 的 系数 .已 知 E96]= 1/2 和 

















EIX] = EIEIXIe]] = Ene] = 了 
e 的 方差 是 1/12, 所 以 ve = 1/V 豆 同样 ， 前 面 的 例子 中 已 经 算得 Ele = 1/3， 当 @ 
取 值 为 9, 了 的 (条 件 ) 方 差 是 m9(1 一 所 ， 利 用 全 方差 准则 ， 得 到 
var(X) =ElvarX|O| + var(E[X|e)]) 
=E[Ine(1— ©)] + var(n®) 


2 
nn n 72 


mm 十 2) 
了 2 


为 了 计算 了 和 8 的 协 方差 ， 利 用 公式 


n 


cov(©, X) = E[OX] — E[©]E[X] = E[OX] 
类 似 例 8. 15 有 


Elex] = EIEIexlell = EIeEIXIe] = Ene] = 7, 


所 以 








将 所 有 的 计算 结果 代入 线性 最 小 均 方 估 计量 的 公式 ， 得 到 


/119 
Re | 12 [XX— 2 二 1 十 
nlnt2)/12 2 2 











Vy 
壮 筷 ， 


Fe 的 ， 就 如 例 8. 13 中 那样 , 则 此 估计 量 


8.4.2 多 次 观测 和 多 参数 情形 


现在 将 求 线 性 最 小 均 方 估计 的 方法 推广 到 多 次 观测 的 情形 . 由 单 次 观察 值 的 情形 扒 





多 次 观察 值 到 情形 并 不 带 来 本 质 上 到 困难 , 用 完全 
估计 的 公式 . 线性 估计 的 系数 只 和 各 观察 值 的 均值 
差 有 关 . 同样 的 , 对 于 多 参数 6; 估计 ， 考 虑 准则 


这 与 之 前 例 8. 13 中 得 到 的 最 小 均 方 估计 是 一 致 的 ， 这 并 不 奇怪 : 


如 果 最 小 均 方 
在 线性 估计 量 ( 更 小 的 类 ) 中 仍然 是 最 


E 广 到 | 
相似 的 方法 可 推导 得 到 线性 最 小 均 方 
、 方 差 以 及 不 同 的 随机 变量 对 的 协 方 








El(O1 ©1)3 人 El(O, On) 





使 其 在 所 有 估计 量 OL, :9m 都 是 观测 值 的 线性 函数 的 情况 下 达到 最 小 . 这 与 寻找 每 
个 6i 使 得 FL(96i 一 9i)] 达到 最 小 是 等 价 的 , 因此 本 质 上 将 问题 化 解 成 wm 个 单 参数 的 
线性 最 小 均 方 估计 的 求解 问题 . 


在 多 次 观测 且 相 互 独立 的 情况 下 , 单个 参数 的 线性 最 小 均 方 佑 计量 的 公式 可 以 简化 如 
下 .日 是 均值 为 上 方差 为 "mo 的 随机 变量 , Al … ,An 是 具有 如 下 形式 的 多 次 观测 


Xi; = © + Wi, 


其 中 观测 误差 Wi 是 均值 为 0 方差 为 2 的 随机 变量 . 假设 9, Wi,… ,Wn 是 各 不 相关 
的 , 基于 观测 值 < An 的 日 的 线性 最 小 均 方 估计 量 是 


1 2 n A 
_ HH/ + Di Xi 


2 0 1/o f 
非常 简单 的 ， 我 们 的 目标 函数 为 


Ul Xl] 

















QO 


上 面 的 结果 的 推导 是 


Ral…… ,an,b) = EI(O 








anXn—b 3 


为 求 其 最 小 值 ， 令 其 关于 4 ,an,b 的 偏 导数 分 别 为 0. 经 过 计算 (本 章 末尾 的 习题 中 
给 出 ) 得 到 前 面 线 性 最 小 均 方 估计 量 公式 中 的 系数 为 








1 也 /12 
AH/ on 1 /ar 


nn 5) 如 = nn ”5; 一 
Djio 1 Oi 2ji-0 1 Oi 


8. 4.3 线性 估计 和 正 态 模型 


线性 最 小 均 方 估计 量 往 往 和 最 小 均 方 估计 量 有 着 不 同 的 形式 , 因而 它 是 次 于 最 小 均 方 估 
计量 的 . 但 是 如 果 最 小 均 方 估计 量 恰好 是 观测 值 六 ,… ,Xn 的 线性 函数 , 则 它 同 时 也 为 
线性 最 小 均 方 估计 量 ， 也 即 两 个 估计 量 重合 . 


这 种 情况 发 生 的 一 个 重要 例子 是 : 日 是 一 个 正 态 随 机 变量 , 观测 值 是 Xi = 日 + Wi 其 
中 Wi 古 独 立 零 均 值 的 正 态 噪声 项 , 同时 与 © 独 并 . 这 个 模型 与 例 8. 3 中 的 一 样 , 我 们 
看 到 日 的 后 验 分 布 是 正 态 的 , 其 条 件 均值 EleIA1 …… ,六 "| 是 观测 值 的 线性 函数 ， 因 
此 , 最 小 均 方 估计 量 和 线 性 最 尔 均 方 佑 计量 是 重合 的 事实 上 , 本 节 中 给 出 的 线性 最 小 
均 方 估计 量 的 公 > 式 和 例 8. 3 中 后 验 均 值 6 的 表达 式 是 一 致 的 . 这 个 结果 还 可 以 进一步 推 
广 : 如 果 9 ,Xn 都 是 一 些 独 立正 态 随机 变量 的 线性 函数 , 那么 最 小 均 方 估计 和 
线性 最 小 均 方 估 计量 是 一 致 的 . 它们 和 最 大 后 验 概率 估计 量 也 是 一 致 的 ， 这 是 由 于 正 态 
分 布 是 单 峰 对 称 的 . 


上 面 的 讨论 提出 了 线性 最 小 均 方 估计 量 的 一 种 有 趣 的 性 质 : 将 原 模型 进行 改变 ， 在 保 
持 均 值 、 方 差 和 协 方差 不 变 的 情况 下 , 假设 牵涉 到 的 随机 变量 都 服从 正 态 分 布 , 在 改变 
了 的 模型 中 得 到 的 估计 量 ( 最 大 后 验 概率 估计 量 、 最 小 均 方 估 计量 和 线性 最 小 均 方 估计 
量 都 是 相同 的 ) 恰好 就 是 原 模 型 中 的 线性 最 小 均 方 估计 量 . 因此 ， 线 : 年 最 小 均 广 全 计量 
有 两 方面 的 价值 ， 一 种 是 计算 的 简便 (避免 公式 EL6IX] 的 复杂 计算 ), 另 一 种 是 模型 的 
简化 (用 正 态 分 布 蔡 代 较 难 处 理 的 分 布 ). 


8.4.4 线性 估计 的 变量 选择 


下 面 指出 线性 最 小 均 方 佑 计 和 最 小 均 方 估计 的 一 个 各 要 区 别 . 考虑 一 个 未 知 的 随机 变量 
9B, 观测 值 1,… ,Xn 以 及 经 过 变换 的 观测 值 i 二 XD), i= 1,…,n， 其 中 函数 凡是 
ek ib es! Yi RA Xi 所 传达 的 信息 是 相同 的 , 因此 基于 
和 好， 各 的 最 小 均 方 估计 和 基于 六 1,… ,Xn 的 最 小 均 方 估计 是 一 样 的 : 


E[©|h(X1),… ,h(Xn)] = E[O|X1,… ,Xl]. 


男 一 方面 , 线性 最 小 均 方 估 计 存 在 的 前 提 是 在 观测 六 1,… ,An 的 线性 函数 类 中 存在 © 
的 合理 的 估计 量 ; 但 这 并 不 总 是 成 立 的 ， 比 如 , © 是 其 分 布 的 未 知 方差 而 Xl, ,Xn 
是 从 那个 分 布 独立 抽样 的 随机 变量 ， 如 此 一 来 , 希望 从 六 1,…… ,Xn 的 线性 函数 中 找 出 
9 的 好 的 估计 是 不 可 能 的 . 这 也 说 明 对 观测 的 变换 对 于 找到 日 的 好 的 估计 是 有 帮助 

的 . 要 找到 合适 的 变换 并 不 总 是 很 容易 的 , 对 问题 结构 的 直觉 往往 可 以 提供 一 些 比较 好 
的 选择 . 习题 17 就 是 一 个 简单 的 例子 


b= 






















































































































































































8.5 小 结 和 讨论 


本 章 介 绍 了 统计 推断 方法 , 其 目的 是 从 概率 相关 的 观测 中 提取 未 知 变量 或 模型 的 信息 . 
我 们 关注 的 未 知 量 是 一 个 (也 可 能 是 多 个 ) 参 数 9, 并 且 讨 论 了 假设 检验 和 估计 问题 . 


我 们 已 经 对 贝 叶 斯 和 经 典 统 计 推 凯 方法 做 了 区 分 . 本 章 着 重 讨论 贝 叶 斯 方法 , 即将 参数 
看 作 具 有 先 验 分 布 的 随机 变量 8. 最 感 兴趣 的 目标 是 给 定 观 测 时 日 的 后 验 分 布 . 后 验 
分 布 从 原理 上 说 可 以 通过 贝 叶 斯 准则 来 计算 ， 但 是 实际 上 , 这 是 一 项 很 艰巨 的 任务 . 


最 大 后 验 概率 准则 (使 日 的 后 验 概率 达到 最 大 ) 是 用 途 广泛 的 推断 方法 , 可 以 用 于 估计 
和 假设 检验 问题 ， 我 们 还 讨论 了 其 他 两 种 参数 估计 的 方法 : 最 小 均 方 (或 条 件 期 望 ) 估 

计量 和 线性 最 小 均 方 估计 量 . 它们 基于 使 @ 和 它 的 估计 间 的 均 方 误差 最 小 化 的 原则 . 线 
性 最 小 均 方 估计 有 时 会 导致 较 大 的 均 方 误差 ， 但 是 计算 简单 , 且 只 与 相关 变量 的 均值 、 

方差 和 日 与 观测 之 间 的 协 方差 有 关 . 在 @ 和 观测 随机 变量 都 服从 正 态 分 布 的 假设 下 ， 

最 大 后 验 概率 估计 量 和 两 个 最 小 均 方 估计 量 是 重合 的 . 




































































习题 

8.1 节 贝 叶 斯 推断 与 后 验 分 布 

1， 阿尔泰 米 西 娅 搬入 了 一 间 新 房子 , 但 是 她 只 有 50% 的 概率 确定 她 的 电话 号 码 是 
2537267， 为 了 确定 , 她 用 房子 里 的 电话 机 拨打 了 2537267， 结 果 接 到 了 “忙碌 ”的 提 
示 , 她 因此 得 出 结论 这 个 号 码 是 正确 的 . 假设 在 任何 时 间 内 一 个 典型 的 7 位 数 电话 号 码 忙 
碌 的 概率 是 1%, 那么 阿尔 泰 米 西 娅 的 结论 是 正确 的 概率 为 多 少 呢 ? 

2， 学 生 南 菲 丽 在 概率 论 课 堂上 做 选择 题 测试 .试题 有 10 个 问题 , 每 个 问题 包含 3 个 选 
项 .每 道 题 有 两 种 可 能 的 情况 , 且 题 与 题 之 间 是 独立 的 : 她 知道 答案 ， 这 样 她 就 能 够 答 
对 选择 题 ;她 不 知道 答案 ， 会 猜 答 案 ， 但 是 有 1/3 的 概率 猜 对 答案 . 

(a) 假设 南 菲 丽 答对 了 第 一 道 题 , 她 的 确 知道 这 题 正确 答案 的 概率 是 多 大 ? 


(b) 假设 南 菲 丽 答对 了 10 道 题 中 的 6 道 , 她 的 确 知道 答案 的 题目 数 的 后 验 分 布 列 是 什么 ? 


8.2 节 点 估计 ， 假 设 检验 ， 最 大 后 验 概 率 准 则 


3， 相 继 到 达 阿 尔 文 乘 车 的 公交 站 的 两 辆 公交 车 之 间 的 间隔 时 间 ( 分 钟 ) 是 一 个 随机 变 
量 , 其 分 钟 数 服从 参数 日 的 指数 分 布 . 日 的 先 验 概率 密度 函数 是 









































109， 若 9 € [0,175] 
0, 其 他 ， 


(a) 周一 ， 阿 尔 文 到 达 车 站 后 等 了 30 分 钟 汽车 才 来 . 问 日 的 后 验 概率 密度 函数 、 最 大 
后 验 概 率 估计 和 条 件 期 望 估计 分 别 是 什么 ? 


(b) 基于 周一 的 经 验 ， 阿 尔 文 决定 更 准确 地 估计 9, 于 是 记录 了 他 五 天 的 等 车 时 间 分 
别 为 30、25、15、40、20 分 钟 , 并 且 假 设 观测 值 相互 独立 ， 问 基于 五 天 的 观测 数据 , 6 
的 后 验 概率 密度 函数 、 最 大 后 验 概率 估计 和 条 件 期 望 估 计 分 别 是 什么 ? 


4， 学 生 们 在 概率 论 课 上 做 选择 题 ， 共 10 道 ， 每 题 三 个 选项 . 知道 答案 的 学 生 能 够 正确 
作答 , 不 知道 答案 的 会 猜 答案 且 猜 对 的 概率 为 1/3. 每 个 学 生 属 于 下 面 三 个 类 别 i= 1.2,3 
的 概率 是 相等 的 ， 知道 每 题 答案 的 概率 由 ， 其 中 pi = 0.3, 几 = 0.7, 内 = 0.95( 题 与 题 之 
间 独 立 ). 假设 随机 抽取 的 一 个 学 生 答对 了 4 个 问题. 


(a) 对 于 的 每 一 取 值 , 求 这 个 学 生 属 于 哪 一 类 别 的 最 大 后 验 概率 估计 


(b) 设 是 这 个 学 生 知道 答案 的 题目 数 . 在 这 个 学 生 答对 了 5 道 题 的 情况 下 , 计算 V 的 
后 验 分 布 列 、 最 大 后 验 概 率 估计 和 最 小 均 方 估计 . 


fe(0)= 
































5， 将 例 8. 4 中 不 均匀 硬币 问题 稍 加 变动 . 假设 正面 朝 上 的 概率 日 分 布 在 [0, 1] 区 间 , 概 


记 i | 
fel9)=2—4 lB 一 1 ， 0E [0， 1]. 
假设 次 独立 硬币 投掷 的 结果 是 人 次 正面 和 nk 次 反面 , 求 9 的 最 大 后 验 概率 个 
计 
6， 翟 许 难 教授 想 在 概率 论 考试 中 出 些 难题, 她 正在 考虑 一 道 准 备 在 下 次 考试 中 出 的 是 


目 . 因此 她 让 助教 解 这 道 题目 并 记录 解 题 时 间 . 这 道 题 是 难题 (6 = 1D 的 先 验 概 率 为 0. 3， 
而 助教 解 题 时 间 的 条 件 概率 密度 函数 (以 分 钟 为 单位 ) 为 





0 
frie(z|0 = 1)= 
0， 其 他 ， 


(9 = 1 表示 题目 难 )， 
ee 5 
0， 其 他 ， 
(9 = 2 表示 题目 不 难 )， 其 中 c 和 cz 为 归 一 化 常数 . 她 用 最 大 后 验 概率 准则 来 判断 


这 个 问题 是 否 难 . 

(a) 若 助教 解 题 时 间 为 20 分 钟 , 她 将 接受 何 种 假设 ?而 犯错 误 的 概率 又 是 多 少 ? 

(b) 为 了 提高 她 的 判断 的 可 靠 性 , 霍 教 授 又 找 来 四 个 助教 做 这 一 道 题目 . 助教 的 解 题 时 
间 是 相互 独立 且 服 从 第 一 个 助教 的 解 题 时 间 的 分 布 . 记录 的 解 题 时 间 分 别 是 10、25、 
15、35 分 钟 . 基于 这 五 个 观测 值 ， 霍 教授 现在 将 接受 何 种 假设 ?而 犯错 误 的 概率 又 是 多 


少 ? 


frie(z|9 = 2) = 











7， 现 在 有 两 个 盒子 ， 每 个 盒子 中 装 了 三 个 球 : 盒子 1 中 装 了 一 个 黑 球 两 个 白 球 ， 盒 子 2 
中 装 了 两 个 黑 球 一 个 白 球 . 我 们 随机 选择 一 个 盒子 ， 其 中 选 盒子 1 的 概率 是 确定 的 p, 然 
后 从 选 定 的 盒子 中 抽出 一 个 球 . 

(a) 描述 通过 抽出 球 的 颜色 来 判断 盒子 编号 的 最 大 后 验 概 率 准 则 , 


2 假设 P= 1/2, 求 做 出 判断 时 犯错 的 概率 , 并 与 不 抽 球 就 做 出 判断 时 犯错 的 概率 进行 


8， 已 知 硬币 正面 朝 上 的 概率 为 9 (假设 Ho ) 或 和 (假设 二 ). 现 独立 重复 地 投 硬 
币 ， 并 记录 在 首次 出 现 反 面 朝 上 之 前 正面 朝 上 的 次 数 .假设 0< gp < < 1， 且 给 定 先 




















验 概率 FUao) 和 P(H1) 的 值 . 


(a) 给 定 在 首次 出 现 反面 之 前 出 现 了 4 次 正面 , 假定 先 验 概率 _P(E) = P( 画 ) = 1/2 计 
算 假设 名 正确 的 条 件 概率 . 


(b) 考虑 决策 准则 : ”当天 二 太 时 选择 备 择 假 设 于 , 其 中 kr* 为 一 非 负 整数 ， 否 则 就 

选择 假设 Ho. 假定 先 验 概率 PlH0) = PlH1) = 1/2, 试 给 出 这 个 决策 准则 犯错 概率 的 公 

式 . 当 fr* 取 何 值 犯错 的 概率 达到 最 小 ?还 有 其 他 类 型 的 决策 准则 可 以 进一步 降低 犯错 
的 概率 吗 ? 

(c) 假设 m=03, 02=07PU) >07 在 PU) 从 0.7 变 到 1 的 过 程 中 , 最 优选 择 背 

(使 犯错 概率 达到 最 小 ) 是 如 何 变化 的 ? 

9.* 考虑 含有 ww 重 假 设 的 贝 叶 斯 假设 检验 问题 , 观测 向 量 为 

X = (XL, … nj.gn(X1,… An 是 基于 XX1,… ,Xn 的 最 大 后 验 概 率 估 计 ， 

gn-1( 六 1,… ,六 mn-1) 是 基于 AAAn-l 的 最 大 后 验 概率 估计 (最 大 后 验 概率 准则 只 利 
用 观测 向 量 中 的 前 n 一 1 个 元 素 ).7= (71,… ,zn) 是 观测 向 量 的 实际 值 ， 且 令 


en(T1…… ,Tn) = P(O # gn(T1, ,Tn)|X1 一 IT ,Xn = Tn), 
en-ltTl1…… ,Tn-_1) = PlO # qn-_il(T1,**…* ,Xn-1 )|X1 = T1,"** ,Xn_1 = Tn_1) 


为 相应 犯错 概率 ， 证 明 

















En(T1,* ,Tn) < en i(T1,** ,Tn_1), 
所 以 在 做 最 大 后 验 概率 决策 的 时 候 , 增加 数据 不 会 造成 犯错 概率 的 增加 . 


解 将 gm-1(X1,… ,六 n-1) 看 作 基于 观测 向 量 所 有 元 素 % … ,六 x 的 特殊 决策 准则 . 由 
于 最 大 后 验 概 率 准 则 gn(X1,… ,六 n) 使 犯错 概率 达到 最 小 (在 所 有 基于 六 1,… ,六 n 的 
准则 中 ), 即 得 结果 . 


8.3 节 贝 叶 斯 最 小 均 方 估计 


10. 一 个 警方 的 测速 雷达 总 是 高 估 驶 来 汽车 的 速度 , 高 估 的 数量 服从 [0, 5] 英 里 /时 的 均 
匀 分 布 . 假设 汽车 行驶 的 速度 服从 [55, 75] 英 里 /时 的 均匀 分 布 ,雷达 测量 的 汽车 速度 的 
最 小 均 方 估计 是 什么 ? 


11. 商店 购物 车 的 数目 日 服从 1 到 100 之 间 的 均匀 分 布 , 购物 车 从 1 到 日 依次 编号 . 你 
进入 商店 的 时 候 观 测 到 的 第 一 辆 购物 车 的 编号 为 并 假定 了 服从 1,… :日 上 的 均匀 
分 布 . 现在 想 利用 此 信息 来 估计 8. 找 出 最 大 后 验 概率 估计 和 最 小 均 方 估 计 并 绘图 ， 提 
示 : 可 参见 例 8. 2. 


12， 考虑 例 8. 2 中 的 多 个 观测 变量 的 情况 : 给 定 8 = 9, 随机 变量 六,…* ,Xn 相互 独立 
且 服 从 区 间 0, 全 上 的 均匀 分 布 , e 的 先 验 分 布 是 区 间 [0, 1] 上 的 均匀 分 布 ， 假 设 n> 3 




















(a) 给 定 4 ,Xn 的 值 1,… ,Tn, 求 日 的 最 小 均 方 估计 . 














(b) 当 5 时 , 画 出 最 大 后 验 概率 估计 量 和 最 小 均 方 估 计量 的 条 件 均 方 误差 关于 
I 二 max{7T1,… ,Tn} 的 函数 图 像 . 


(c) 铬 固定 三 = 0.5， 当 一 po, 最 大 后 验 概率 估计 、 最 小 均 方 估 计 和 相应 的 条 件 均 方 
误差 的 表现 如 何 ? 


13.* (a) 五 ;次 是 独立 同 分 布 的 随机 变量 ,Y= 六 十 … 十 7% 证明 EY] = Yn. 
(b) © 和 灰 是 独立 零 均 值 正 态 随机 变量 , 方差 分 别 为 正 整数 k 和 m 利用 (a) 的 结论 
求 ELele + TI] ,并 确认 这 与 例 8. 3 中 条 件 期 望 公式 是 一 样 的， 提示 : 将 @ 和 看 作 
独立 随机 变量 的 和 . 

(c) 重复 (b) 的 过 程 .不 过 @ 和 为 相互 独立 的 泊 松 随机 变量 , 均值 分 别 为 整数 入 和 
H. 








解 (a) 根据 对 称 性 , 对 每 个 7 来 说 EL 站] 是 一 样 的， 进一步 地 ， 
ElYi +:…+Y|Y] = E[Y|IY] =Y. 
所 以 , EY] = Yi/n. 
(b) 可 以 将 日 和 所 看 作 独 立 标准 正 态 随 机 变量 的 和 : 
8=O1+:…+Ok, W = Wt + Wn. 
将 (a) 中 的 了 看 作 +W 得 到 


a e+W 
E[eile + W]| = 





二 +m 
因此 ， 


tt 





E[8l|O@ +W]= E[el +…+ekle + 本 ] = K [© + WW). 


十 77 


根据 例 8. 3 中 条 件 均值 的 公式 , 运用 到 本 题 的 情况 ( 零 先 验 均 值 、 单 观察 值 ), 得 到 条 件 期 
望 的 形式 为 
(© + W)/ob 加 02 (© + W) = 大 
(1/08) 十 (1/0w) 。 08 一 of K+m 


与 这 里 的 答案 是 一 致 的 . 


(c) 回忆 独立 的 泊 松 随机 变量 的 和 的 分 布 还 是 泊 松 分 布 . 因此 (pb) 中 的 论证 可 以 将 日 
和 WV 看 作 和 和 4k 个 均值 为 1 独立 泊 松 随机 变量 之 和 , 即 得 








【日 十 WW ). 


‘ 





E[eIe + W = x (©+ WW). 


TH 


8.4 节 贝 叶 斯 线性 最 小 均 方 估计 


14， 考 虑 例 8. 11 中 的 随机 变量 @ 和 不 求 @ 的 基于 了 的 线性 最 小 均 方 估计 量 以 及 相 
应 的 均 方 误差 . 


15， 对 于 习题 11 中 的 购物 车 模型 , 找 出 最 大 后 验 概率 、 最 小 均 方 和 线性 最 小 均 方 估计 
量 , 并 画 出 它们 的 条 件 均 方 误差 关于 观测 到 的 购物 车 编号 的 函数 . 


16， 随 机 变量 了 和 e 的 联合 概率 密度 函数 形式 为 
c， 者 (zZ, 从 E 9， 
0， 其 他 ， 











f(s; 二 


其 中 c 是 常数 而 9 是 集合 

S={(z,0|0<z<?2,0<0<2,7-1<0<7). 
现 希 望 基 于 了 来 估计 @&. 
(a) 找 出 日 的 最 小 均 方 估计 gl7). 
(b) 计算 E[I(e -goC))X =z],{Elg(X)] 和 var(g(X)). 
(c) 计算 均 方 误差 EI(6 一 g(X))] 它 和 Elvar(6|X)] 是 一 样 的 吗 ? 
(d) 用 全 期 望 公式 计算 var(6). 
(e) 求 日 的 基于 不 的 线性 最 小 均 方 估计 量 , 并 计算 其 均 方 误差 . 
17. © 是 已 知 均值 为 k 方差 为 o? 的 正 随 机 变量 , 将 基于 具有 形式 X = VBW 的 测量 
值 来 进行 估计 . 假设 与 日 独立 ， 其 均值 为 0, 方差 为 1 且 具 有 已 知 的 四 阶 矩 EITF | 
因此 , 给 定 日 的 情况 下 了 的 条 件 均值 和 方差 分 别 为 0 和 6. 我 们 的 目的 是 在 给 定 观测 
的 情况 下 来 估计 了 的 条 件 方差 日 试 分 别 找 出 日 基于 了 的 线性 最 小 均 方 估计 量 以 及 
基于 X? 的 线性 最 小 均 方 估计 量 . 
18. 吞 下 的 布 丰 针 . 医生 正在 医治 一 个 不 小 心 吞 下 一 根 针 的 病人 . 决定 要 不 要 做 手术 
的 关键 是 未 知 的 针 的 长 度 9, 假设 服从 0 到 i> 0) 之 间 的 均匀 分 布 . 希望 基于 X 射 线 下 投 
影 长 度 了 来 估计 9B， 建立 二 维 坐 标 系 ， 记 

X = QcosW, 


Ss (锐角 ). 假设 六 服从 区 间 [0,72| 的 均匀 分 布 ， 并 且 
与 日 独立 . 















































(a) 试 求 最 小 均 方 估计 量 Elelx] 特别 地 , 写 出 Re(zlo)，7Prefzlo)， 关 (zjex em) 
并 计算 E[eIX = 习 提示 : ”下 面 的 公式 将 很 有 用 : 


b 


b -jb 
a 
f da= Vo -oe —c|. 
a J, Vai—e 


(b) 试 求 日 基于 了 的 线性 最 小 均 方 估计 以 及 相应 均 方 误差 . 
19. 光 通信 系统 中 的 光电 探测 器 对 给 定时 间 区 间 内 到 达 的 光子 进行 计数 . 用户 通过 开关 
光子 传送 器 来 传送 信息 ,假设 传送 器 开 着 的 概率 是 p. 当 传送 器 开 着 的 时 候 , 传送 过 来 
的 光子 的 个 数 日 服从 均值 为 A 的 泊 松 分 布 . 传送 嚣 关 着 的 时 候 不 传送 光子 . 

遗憾 的 是 ， 不 论 传送 器 是 关 还 是 开 ， 由 于 “发 射 噪声 ”现象 的 存在 , 光子 都 有 可 能 被 探 
测 到 . 发 射 噪声 被 探测 到 的 个 数 W 服从 均值 为 A 的 泊 松 分 布 ， 因 此 , 探测 到 光子 的 总 
数 工 在 传送 器 开 着 的 时 候 是 日 + N, 关 着 的 时 候 是 六 假设 8B 和 Y 是 独立 的 ,于 是 
e+ 和 服从 均值 为 ^+A 的 泊 松 分 布 . 
(a) 给 定 光 电 探 测 器 探测 到 的 光子 数 & 传送 器 开 着 的 概率 是 多 少 ? 
(b) 描述 判断 传送 器 是 否 开 着 的 最 大 后 验 概率 准则 . 
(c) 基于 探测 到 的 光子 个 数 , 找 出 传送 光子 个 数 的 线性 最 小 均 方 估计 . 


20.* 球形 不 变 概率 密度 函数 的 估计 .eB 和 了 是 连续 型 随机 变量 ， 其 联合 概率 密度 形 


上 -天 da 一 logfa 十 vVo2 — ec:) 
a Val—c? 

















fe.xl9,7) = hlg(g, 7)), 
其 中 4 是 非 负 标量 函数 , 4(9,7) 是 二 次 函数 ， 其 形式 为 
dfg.zr) 一 alg 一 下 2 十 Br 一 五 2 一 2c(9 一 由 (z 一 五). 


这 里 a 关 0,b,c,9,z5 是 一 些 标量 . 对 于 任意 x (E[elX = | 有 限 且 形式 固定 ), 给 出 最 小 
均 方 估计 和 线性 最 小 均 方 估计 . 假设 对 于 所 有 的 9 和 x ,9(9,7) 二 0， 单调 递减 . 给 出 
最 大 后 验 概率 估计 并 说 明 它 和 最 小 均 方 估计 以 及 线性 最 小 均 方 估计 是 一 致 的 


解 0 的 后 验 概率 密度 是 





fexl9,7) Ag ,zj 
fxlr) fx(r) 
为 推导 最 小 均 方 和 线性 最 小 均 方 估计 ， 首 先 考虑 最 大 后 验 概 率 估计 , 假设 对 于 所 有 的 9 


和 x ,4(9,7) 二 0，4 单调 递减 . 最 大 后 验 概率 估计 使 得 hl4(9,7)) 达到 最 大 ， 又 因为 4 
是 减 函数 , 则 要 选 g 使 得 4(9,7) 达到 最 小 ， 令 427) 导数 为 0, 得 到 





Jelxtglz) = 








站 = 5 十 二 (zz 一 五 ). 
a 


(这 里 用 到 结论 非 负 二 次 函数 的 最 小 值 在 导数 为 0 处 取得 . )” 





| 3 这 说 明 6 是 9 的 最 大 后 验 概率 估计 . 一 一 译 者 注 
































现在 将 要 说 明 9 和 最 小 均 方 估计 以 及 线性 最 小 均 方 估计 是 等 价 的 (不 需要 假设 对 于 所 
有 的 8 和 区 ,qt2z 之 0，2 单调 递减 ) . 注意 到 


9g_8=0—6+ (rz), 
将 4(9,7) 的 表达 式 代 入 并 经 过 一 些 代数 计算 得 到 


ql(9,7) 一 al 一 9) 十 ( 一 s) {ZI— 元)2. 
a 


因此 ， 对 于 任意 给 定 的 五 后 验 概 率 密 度 是 关于 9 对 称 的 函数 . 这 说 明 9 和 条 件 均 值 
EI6|X = 了 是 相等 的 , 只 要 ELelA = 可 有 限 . 此 外 ， 我 们 有 





E[Ie|X] =8+-(X— 71). 
a 

















由 于 PI8|X] 是 了 的 线性 函数 ， 因 而 也 是 线性 最 小 均 方 估计 量 . 


21.* 基于 两 个 观测 的 线性 最 小 均 方 估计 ， 考 虑 已 知 均值 和 方差 的 三 个 随机 变量 @、 
和 到 假设 var(X) > 0,var(Y) >0 且 p(X, 站 | 关 1 给 出 基于 了 和 了 的 日 的 线性 最 小 
均 方 估计 . 


解 考虑 形式 为 6 = ax + by +c 的 线性 估计 量 , 选择 a、bp、c 使 得 均 方 误差 
El(e 一 aX 一 bY 一 中 达到 最 小 .假设 a 和 2 已 经 选 定 ， 不 难 验证 ， 


c=E[el — aE[X] ~ bE[Y]. 
使 EI(9 一 aX 一 bY 一 0)] 达到 最 小 . 接 下 来 的 问题 就 变 为 选择 a 和 2 使 下 式 达 到 最 小 


E[((© — E[©]) — a(X — E[X]) —b(Y — E[Y]))™. 





将 上 式 展 开 , 得 到 
var(O)+asvarl(X)+b2var(Y)—2acov(O, X)—2bcov(O,.Y)+2abcov( X.Y). 


假设 和 了 是 不 相关 的 ， 则 有 covt 六 ,站 ) = 0. 将 均 方 误差 的 表达 式 分 别 对 a 和 5b 求 导 ， 
令 导 数 等 于 0 得 到 




















加 cov[(O.X) cov[{OY) 
van YY var(Y) 
因此 , 线性 最 小 均 方 估计 量 是 
A OVIGB XI) ， 日 
© = E[IO|+ a a fh — EI[X])+ Soty — E[Y]) 


varlX) 


如 果 石子 是 相关 的 ， 同 样 对 a 和 5b 求 偏 导数 , 令 式 子 为 0. 得 到 一 组 两 个 关于 a 和 2 


的 线性 方程 ， 解 得 


_ varlY)cov(©, X)— cov(O, YJ)cov(X,Y) 
电 var(X)var(Y) — covi (X,Y) 


var(X)cov(O.Y)— cov(O., X)cov(X.Y) 
varlX J}var(lY) 一 cov2(X Y) 


主意 ， 条 件 Jols, 站 去 工 可 保证 上 面 两 式 的 分 母 不 为 0. 


22.* 基于 多 观测 的 线性 最 小 均 方 估计 ， 设 日 是 均值 为 1 方差 为 的 随机 变量 ， 
Xi 是 具有 以 下 形式 的 多 个 观测 值 
Ai 一 日 十 全 ii， 


其 中 观测 误差 Wi 是 均值 为 0 方差 为 2 的 随机 变量 , 并 且 假 设 9, Wi,… ,Wn 是 各 不 相 
关 的 . 通过 取 遍 m4,… ,an,b 使 得 下 面 函 数 取 到 最 小 值 


b= 








| ee , 
al ,an.b) = 5E[(e alX1 一 … :一 GnAXn b)3], 


a 


证 明基 于 观测 值 < ,An 的 日 的 线性 最 小 均 方 佑 计量 是 


Hi jg? + Di 1 Xi/of 


Di ol/of 
解 下面 将 说 明 取 得 最 小 值 时 的 m4,… ,an,b 是 


©= 





为 此 , 只 要 说 明 ai… ,an 是 满足 #4 关于 ma,… ,an,b 的 偏 导数 等 于 0 的 系数 即 可 
(对 于 非 负 二 次 函数 丸 导数 取 值 为 0 的 点 即 为 最 小 值 ) 


对 4 求 导 得 


oh 
ob Guba 





= o[ (Pe 一 e+ yi + 吉 
i 一 1 


i=1 


(Fe) Bee) 
根据 六 和 5 的 表达 式 可 知 


oh 


oai 





利用 这 个 等 式 以 及 事实 


E[e] = 1, {E[Wi] = 0， 





得 到 
oh b* : 
-一 一 一 一 |] 昌 十 :Hi 十 信 | 一 0. 
1 | ) 2 | 0 
再 利用 下 列 等 式 
ElXi(x — ©)] = 了 E[(e 一 A+VI+ 站 一 昌 )] = -oo, 
ELXiT=EI(e+TT = 加 ， 对 所 有 工 
ELXiT = E[(e+TVD5)T =0， 对 所 有 rz 了 
得 到 
Oh _ bY 
Sol elx,(( “)e 十 2 Wi+b ) 





其 中 最 后 一 个 等 式 成 立 是 由 于 六 和 % 的 定义 . 

23.* 最 小 均 方 估计 的 性 质 ， 设 @ 和 是 两 个 具有 正方 差 的 随机 变量 . 令 er 是 9 
基于 了 的 线性 最 小 均 方 估计 量 , er = BL 一 日 是 相应 误差 . 同样 地 , 令 避 是 日 基于 工 
的 最 小 均 方 估计 量 FI6|X],98 = 日 -日 是 相应 误差 . 


(a) 证 明 估 计 误 差 Bz 满足 











E[6r] = 0. 
(b) 证 明 估计 误差 Bz 和 观测 工 不 相关 . 
(c) 证 明 日 的 方差 可 以 分 解 为 
var(©) = var(fr) + var(O1). 
(d) 证 明 最 小 均 方 估计 的 估计 误差 6 与 观测 了 的 任何 函数 X) 不 相关 . 
(e) 证 明 6 未 必 与 了 独立 . 


(f) 证 明 线 性 最 小 均 方 估 计 误 差 Bz 未 必 与 观测 了 的 所 有 函数 ASX) 都 不 相关 , 且 
EIOL|X = 可 对 于 所 有 x 未 必 等 于 0. 


解 (a) 依 线 性 最 小 均 方 估计 的 公式 





两 边 取 期 望 得 到 E[er] = EI9] ,或 EI8z]=0. 
(b) 利用 Bz 的 公式 得 到 


E[(er — ©)X] =E |( [日 ] + | X 一 Pb)) X 一 ox| 


-E [slelx x -XEIX])— ex 
cov(Be,X)JE[LX3] _ Cov (日 .XI (E[X]) 


二 — (E[OX] — E[O]E[X]) 


Ox x 
2 
二 cov(O, XX) (= ] BE -1) 
ox ox 
)( 委 -) 
=cov(9,X) | 一 1 
Ox 


由 于 (a) 中 的 事实 E[6r] = 0 说明 cov(6zr,X) = EI[erX] 一 EIOLJEIX] = 0( 注 意 到 
El6rAX] = 0， 这 刚刚 证 得 )， 即 估计 误差 Bz i 了 不 相关 . 


(c) 由 于 cov(6r,X) = 0 而 6r 又 是 地 的 一 个 线性 函数 , 于 是 有 cov(6r,ez) = 0 因 
此 ， 
var( 口 ) =var(OL — Or)= var(OL) + var(—QAL) + 2cov(OL, —OL) 
=var(OL) + var(OL) — 2cov (OL.O1) = var(OL) + var(OL). 
(d) 这 是 由 于 EF[6] =0 以 及 
EIOh(X)] =E[(E[©|X] ~ ©)h(X)] 

=E[E[IO|X]h(X)] — E[Oh(X)] 

=E[E[Oh! OX] E[Oh(X)] 

=E[Oh(X)] — E[Oh(X)] 

一 0. 


(e) 此 处 举 出 一 个 反例 : 设 8 和 了 是 离散 随机 变量 具有 联合 分 布 列 


ly 省 ( 人 对 =000) (DD; 一 1 
pe,x(0,7£) = 
0, 其 他 . 


在 这 个 例子 中 ,六 = 19 这 样 了 和 8 不 相互 独立 . 注意 到 对 于 任意 可 能 的 取 值 x 有 
ElelA = 相 |=0, 因而 El8|X]=0， 所 以 有 = -8. 由 于 了 和 eB 不 相互 独立 不 和 日 
也 不 相互 独立 . 


(f) 设 @ 和 是 离散 随机 变量 具有 联合 分 布 列 


1/3, 大 (0， Z) ER (0, 0), (1, 1 Lh = 
0, 其 他 . 


这 个 例子 中 ,日 =|X| 注意 到 E[X]=0 和 EI6X]=0, 所 以 了 和 @ 是 不 相关 的 . 依 线 
性 最 小 均 方 估计 的 定义 ， Or = EI8] = 2/3,961 = (2/3)-9=(2/3) 一 |X| 与 了 不 独立 . 进 
却步 有 到 95| 直 三 习 = 三 让 /一 加， 这 依赖 于 六 0 或 加 二 1 取 值 为 2/3 和 =1/3; 


24.* 基于 多 观测 的 线性 最 小 均 方 估计 的 性 质 ， 令 9, 六,… ,六 是 给 定 方差 和 协 方差 
的 随机 变量 .8x 是 日 的 基于 AD ,Xn 的 线性 最 小 均 方 佑 计量 ,ez = ez 一 日 是 相应 
误差 .证 明 Eler] = 0， 且 对 每 个 i, Bx 和 Xi 不 相关 . 

解 ” 先 证 明 对 于 所 有 六 E[erXil = 0. 考虑 一 个 新 的 线性 估计 量 er +aXi ,其 中 a 为 
一 个 标量 参数 . 由 于 6x 是 线性 最 小 均 方 估 计量 , 它 的 均 方 误差 ELI9: 一 日 站 不 会 超过 
新 估计 量 的 均 方 误差 Ma) = E[(er +i 一 6) 因此 , 函数 h(a) 在 a =0 的 时 候 取 到 最 

小 值 ， 即 (dhyda)(0) = 0， 注 意 到 


h(a) = E[(OL + aXi)’] = E[O2] + aE[OL Xi] + o ELIXI. 





pe,x(0, $) i 
































(dh/da)(0)=0 和 E[OL Xi =0 是 等 价 的 . 


现在 来 重复 上 面 的 论证 ， 但 是 用 常数 1 来 代 葵 随机 变量 Xi 经 过 相同 的 步 又， 得 到 
Eler] = 0， 最 后 注意 ， 





cov(OL, Xi) = E[OLX;] 一 EIerED = 0 — 0: EX;] = 0， 


所 以 er 和 总 是 不 相关 的 . 


第 9 章 经 典 统计 推 灯 


在 第 8 章 ， 我 们 将 未 知 参 数 看 成 随机 变量 ， 利 用 贝 叶 期 方法 进行 统计 推断 . 我 们 所 处 理 
I 子 都 是 单一 的 完全 确定 的 概率 模型 , 并 能 够 利用 贝 叶 斯 准则 对 它们 进行 推导 和 
1 


相 比 之 下 , 本 章 采 用 一 种 与 之 完全 不 同 的 原理 : 认为 未 知 参 数 9 是 确定 的 ( 非 随机 ) 而 
取 值 未 知 . 观测 XY 是 随机 的 ， 根 据 8 取 值 的 不 同 , 服从 Pxl7; 外 (车 了 是 离散 的 ) 或 
pe 外 (若是 连续 的 ). 因此 ， 我 们 将 同时 处 理 多 重 候选 模型 , 每 个 模型 对 应 9 的 一 

能 的 取 值 , 而 不 是 仪 仅 处 理 单一 的 概率 模型 ， 在 这 里 , 一 个 “好 ”的 假设 检验 或 者 
估计 芝 程 是 指 在 每 个 候选 模型 为 真 模型 时 ， 都 拥有 某 些 理 息 的 性 质 ， 某 些 时 候 , 我 们 也 
会 采用 保守 的 观点 : 一 个 过 程 不 会 被 认为 达到 我 们 的 要 求 , 除非 它 在 9 取 到 最 坏 值 的 
情况 下 也 能 保持 好 的 效果 . 
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0 1 区 间 估计 等 
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图 9.1 经 典 推断 模型 的 总 结对 于 9 的 每 个 取 值 ， 有 分 布 Pxtz: 中. 利用 观测 了 的 
取 值 x 计算 点 估计 ， 或 者 选择 一 个 假设 ， 等 等 


总 的 来 说 ， 在 我 们 的 记号 中 ， 概 率 和 期 望都 标明 了 相应 的 9 的 值 . 比如 ， 记 Eolh(X)] 
为 随机 变量 A\X) 的 期 望 , 不 过 在 求 期望 的 过 程 中 ， 了 的 分 布 参数 为 9， 类 似 地 ， 用 记 
号 Pel44) 表示 一 个 事件 4 的 概率 ， 需 要 注意 的 是 ， 这 里 指示 Eel 对 于 9 的 依赖 性 
0 函数 上 的 依赖 性 , 而 不 像 贝 叶 斯 分 析 中 那样 ,8 的 出 现 意味 着 相应 的 概率 是 条 件 
既 : x 


本 章 前 面 两 节 将 介绍 参数 估计 ， 重 点 是 最 大 似 然 估计 和 线性 回归 方法 , 经 常 涉及 的 是 独 
立 同 分 布 的 观测 值 . 这 里 的 问题 和 第 8 章 讨论 贝 叶 斯 估计 量 是 类 似 的 . 我 们 的 目标 是 找到 
有 优 民 性 能 的 佑 计量 (观测 值 的 函数 )， 但 是 , 选取 的 准则 会 有 所 不 同 ， 因 为 它们 

必须 面 对 未 知 参数 的 所 有 可 能 取 值 . 比如 说 , 我 们 的 选取 准则 是 要 求 估计 误差 的 期 望 为 
0 切 9 的 值 都 成 立 ), 或 者 对 于 未 知 参数 的 所 有 可 能 取 值 ， 估 计 误 差 在 很 大 的 概率 
下 很 小 . 


第 3 节 将 讨论 简单 假设 检验 的 问题 .这 里 提 及 的 方法 和 第 8 章 中 ( 贝 叶 斯 ) 最 大 后 验 概率 
方法 类 似 ， 特 别 地 , 我 们 计算 每 个 假设 成 立 的 似 然 程度 基于 已 经 观测 到 的 数据 , 并 通过 
两 个 假设 的 似 然 程度 的 比值 的 茶 种 门限 值 来 选择 假设 . 


最 后 一 节 将 讨论 不 同类 型 的 假设 检验 问题 ， 举 一 个 例子 , 假设 投 搓 一 枚 硬币 zn 次 ， 观 
测 到 由 投 撕 二 来 (正面 或 反面) 组 成 的 一 个 序列 , 我 们 想 知道 这 个 硬币 是 否 均匀 |. 需要 检 
验 的 主要 假设 是 P= 1/2 是 否 成 立 , 其 中 p 是 正面 朝 上 的 未 知 概率 ， 备 择 假设 了 隆 1/2 
是 复合 的 , 因为 它 由 很 多 甚至 可 能 是 无 限 多 的 子 假设 组 成 (比如 P=0.1,P=0.4999 

































































等 )， 很 明显 ， 在 观测 值 个 数 不 是 很 大 的 情况 下 , 没有 一 种 可 靠 的 方法 能 够 区 分 P= 0.5 
还 是 = 0.499 9. 这 类 问题 通常 利用 显著 性 检验 的 方法 来 解决 . 有 人 会 问 : 观测 数据 和 
假设 P=05 是 否 一 致 ? 粗糙 地 说 ， 在 某 假设 基础 上 , 如 果 观 测 到 的 数据 看 起 来 不 像 是 
在 这 个 假设 之 下 “偶然 ”产生 的 , 那么 该 假设 将 被 拒绝 . 


本 章 的 主要 术语 、 问 题 和 方法 
和 E 取 值 都 假 
































设 一 个 单独 的 概率 模型 
。 在 参数 估计 中 ,希望 找到 在 未 知 参数 取 任何 可 能 值 的 情况 下 都 基本 正确 的 估 











计 . 


。 在 假设 检验 中 , 未 知 参数 对 应 于 对 立 假设 取 有 限 的 mlm 二 2) 个 值 ， 想 要 选择 
个 假设 , 使 得 在 任何 可 能 的 假设 下 错误 的 概率 最 小 . 


“在 显 才 性 检验 中 ， 希望 接 受 或 者 拒绝 一 个 简单 的 假设 保持 错误 拒绝 的 概率 和 


本 章 主要 的 经 典 推断 方法 


(a) 最 大 似 然 估计 : 选择 参数 使 得 被 观测 到 的 数据 “最 有 可 能 ”出 现 , 比如 使 
获得 当前 数据 的 概率 最 大 ( 见 9. 1 节 ). 


(bp) 线性 回归 :在 这 样 的 意义 下 找 出 一 组 成 对 数据 之 间 最 合适 的 线性 关系 : 这 
种 线性 关系 使 得 模型 与 真实 数据 之 间 差 值 的 平方 和 最 小 ( 见 9. 2 节 ). 


(c) 似 然 比 检验 : 给 定 两 个 假设 , 根据 它们 发 生 “ 可 能 性 ”的 比值 选择 其 一 ， 
使 得 犯错 的 概率 适当 小 ( 见 9. 3 节 ). 


(d) 显著 性 检验 : 给 定 一 个 假设 , 当 且 仅 当 观测 数据 落 在 某 个 拒绝 域 的 时 候 拒 
人 
万 ) . 
















































































9.1 经 典 参数 估计 


本 节 利 用 经 典 的 方法 讨论 参数 估计 问题 , 所 谓 经 典 的 方法 就 是 将 参数 8 
而 不 是 随机 变量 . 先 介绍 一 些 定义 和 估计 量 的 相关 性 质 . 然后 讨论 最 大 似 然 信 计量 























可 以 看 作 是 经 典 统计 中 与 贝 叶 斯 最 大 后 验 概 率 估 计量 相对 应 的 部 分 最 后 关注 简单 但 是 
重要 的 估计 未 知 均 值 的 例子 , 如 果 可 能 的 话 估计 未 知 的 方差 . 本 章 还 讨 1 从 相关 的 问题 ， 
































et 


包括 建立 一 个 有 很 大 概率 包含 未 知 参数 的 区 间 (一 个 “置信 区 间 ”). 这 里 用 到 的 很 重要 
的 方法 是 大 数 定律 和 中 心 极限 定理 (参见 第 5 章 ). 


9.1.1 估计 量 的 性 质 


给 定 观测 X = (X1,… , Xn)， 估 计量 是 指 形式 为 © = g(X) 的 随机 变量 . 注意 ， 由 于 
的 分 布依 赖 于 9， 因 而 日 的 分 布 也 一 样 . 估计 量 9 的 取 值 称 为 估计 值 . 


有 时 候 ， 尤 其 是 当 我 们 对 观测 数目 2 起 的 作用 感 兴趣 时 , 用 9 表示 一 个 估计 量 . 当然 
将 Bn 看 作 是 一 系列 估计 量 ( 分 别 对 应 的 不 同 取 值 ) 也 是 合适 的 按照 一 般 的 定义 ， 
6 的 均值 和 方差 记 为 Eo[9w] 和 vare(en). Ee[enl 和 vare(en) 都 是 9 的 数值 函数 ,但 
为 简单 起 见 ， 情 况 清楚 的 时 候 就 不 说 明 这 种 依赖 性 了 . 


下 面 介 绍 和 估计 量 的 各 种 性 质 相关 的 一 些 术语 . 




















估计 量 的 相关 术语 
6 是 未 知 参数 9 的 一 个 估计 量 , 也 即 关于 个 观测 XX,… ,Xn( 服 从 依赖 参数 6 


的 分 布 ) 的 一 个 函数 
。 估 计 误 差 , 记 为 6u 定义 为 6n = 6n 一 

。 估 计量 的 偏差 ， 记 为 bfe)， 是 估计 误差 的 期 望 值 ; 
be(On) = Eg[On] 一 0. 


On 的 期 没 值 、 方差 和 偏差 都 依赖 于 9, 而 估计 误差 同时 还 依赖 于 观测 


Ey We ) Xn. 





。 称 6, 无 偏 ， 若 Br[8"] =9 对 于 9 所 有 可 能 的 取 值 都 成 立 ， 
。 称 6 渐 近 无 偏 , 若 au Eoleo] =9 对 于 9 所 有 可 能 的 取 值 都 成 立 


。 称 Bn 为 9 的 相合 估计 序列 , 如 果 对 于 9 所 有 可 能 的 取 值 ,序列 e。 依 概率 
收敛 到 参数 9 的 真 值 . 


我 们 不 可 能 指望 作为 随机 观测 的 函数 (估计 量 ) 正好 和 未 知 参数 真 值 9 相等 . 因此 ， 佑 
计 误 差 一 般 非 零 ， 另 一 方面 ， 对 于 9 所 有 可 能 的 取 值 , 如 果 平 均 估 计 误 差 是 零 ， 则 得 
到 一 个 无 偏 的 估计 量 ， 这 是 我 们 想 要 的 性 质 . 渐 近 无 偏 估计 只 需要 随 着 观测 数目 的 
增加 ， 估 计量 变 得 无 偏 即 可 , 这 在 2 比较 大 的 情况 下 也 是 所 乐 见 的 . 


除了 偏差 befeu) 我 们 往往 对 估计 误差 的 大 小 感 兴趣 . 均 方 误差 [9"] 可 以 捕捉 到 这 
一 信息 . 下 面 的 公式 将 均 方 误差 、 偏 差 和 6n 的 方差 联系 在 一 起 : 











:这 是 人 起 EX = (EER] 关 十 var( 慰 ) 的 应 用 ,其 中 X = 昌 w 而 期 望 与 相应 于 9 的 分 布 有 关 . 我 们 也 利用 
| 了 事实 Eg[©,] = be(On,) 和 YV arg(On) = varg(On, — 0) = varg( On)} 








Eg [63] 一 bz(e， j 十 varge (On ). 


这 个 公式 很 重要 ， 因 为 在 很 多 统计 问题 中 都 存在 等 式 右边 两 项 的 平衡 . 方差 的 减少 总 是 
伴随 着 偏差 的 增 大 ， 当 然 ,一 个 好 的 估计 量 会 让 两 项 的 取 值 都 比较 小 . 


下 面 将 讨论 一 些 具 体 的 估计 方法 ， 首 先是 最 大 似 然 估计 . 这 是 一 种 适用 范围 较 广 的 估计 
方法 , 与 之 前 贝 叶 斯 扒 断 中 的 最 大 后 验 概率 估计 有 很 多 相似 之 处 . 然后 我 们 会 考虑 简单 
要 的 估计 随机 变量 均值 和 方差 的 例子 . 这 将 和 第 5 章 我 们 讨论 的 大 数 定律 有 一 些 
联系 . 


9.1.2 最 大 似 然 估计 
































设 观测 向 量 六 = (X1,… ,Xn) 的 联合 分 布 列 为 Px (7 多 二 Px(T1… ,Zn;9)(g 可 为 向 量 
或 数量 ), 其 中 六 == (人 1 An 为 了 的 观测 值 . 那么 ， 最 大 似 然 信 计 是 使 (的 ) 数值 函 
数 Pxtzl ,Tn;9) 达到 最 大 的 参数 值 ( 见 图 9. 2) : 
0 = arg max px(T1,.** ,Tn: 0). 
日 


当 了 为 连续 型 随机 变量 时 , 可 将 同样 的 方法 用 于 联合 概率 密度 函数 fx(7:9)( 取 代 
px lz:;0)), ] 


0 = arg max Fxfrzl ,Tn: 0). 


称 Pr 由 (或 fxl7; 的 , 若 了 为 连续 型 随机 变量 ) 为 似 然 函 数 . 








求 似 然 | 草 太 似 然 


px(2; 0,,) 


图 9. 2 最 大 似 然 估计 的 说 明 : 假设 了 是 离散 的 ,9 在 有 限 集 {2，…… ,9m} 中 取 值 . 
给 定 观测 值 X = z， 对 于 每 个 jz 可 计算 得 到 似 然 函数 Pxl7;9%) 的 值 ， 从 而 可 以 次 
使 pxl7;] 最 大 的 9 的 取 值 


ee Xi 独立 , 从 而 对 于 每 个 i XX; 是 离散 的 随机 变量 , 似 然 函数 的 
形式 


n 


DXUTL Tg = ] ex. (Zi; 6). 
i=1 








在 接种 情况 下 ， 为 了 分 析 和 计算 的 方便 可 让 其 对 数 达 到 最 大 , 下面 的 式 子 称 为 对 数 似 然 
函数 ， 


n n 
ln pxl7X1,.** ,Tn:0) = 1n ] ex. (7i;0) = >》， ln px,lZzi: 9). 
i=]1 t=] 


当 了 为 连续 型 随机 变量 时 ， 类 似 地 用 概率 密度 函数 取代 分 布 列 , 取 裔 9 使 得 下 面 表达 
式 值 最 大 


ln Fx(zl,…… ,Ti 29-mTTFeer 9) -Df 9). 





此 处 对 于 术语 “ 似 然 ”需要 一 些 的 解释 .对 于 已 知 了 的 观测 值 Px (7: 欠 不 是 未 知 参 
数 等 于 9 的 概率 ， 事 实 上 , 这 是 当 参 数 取 值 为 9 时 ， 观 测 值 x 可 能 出 现 的 概率 ， 因 
此 , 为 取 定 9 的 估计 值 时 ， 我 们 会 问 这 样 的 问题 ， 基 于 已 知 的 观测 ,9 取 什 么 值 可 使 观 
测 值 最 可 能 出 现 呢 ? 这 就 是 术语 “ 似 然 ”的 本 意 . 


回忆 在 贝 叶 斯 最 大 后 验 概率 估计 中 , 估计 的 选择 是 使 表达 式 Pel&)pxletzlo 取 遍 9 达 
到 最 大 , 其 中 Pel9) 是 包含 一 个 未 知 离散 参数 9 先 验 分 布 列 . 因而 若 将 Pxl7: 外 看 作 
ea 列 , 可 将 最 大 似 然 估计 解释 为 具有 均匀 先 验 的 最 六 后 验 概率 估计 所 谓 均匀 先 

念 分 布 列 是 指 对 于 所 有 9 都 具有 一 样 的 先 验 概 率 , 也 即 没有 任何 信 ， 忆 的 先 验 人 分 布 列 . 
同伴 地 对 于 连续 的 取 值 有 界 的 9, 可 将 最 大 似 然 估 计 解 释 为 具有 均匀 先 验 密度 的 最 大 
后 验 概率 估计 , 对 所 有 的 9 其 均匀 先 验 密度 为 fe(9) = < 


例 9.1 让 我 们 来 回顾 例 8. 2， 朱 丽 叶 迟到 的 时 间 为 五 服从 上 0 中 的 均匀 分 布 ， 其 中 8 
是 未 知 参数 ， 在 那个 例子 中 , 我 们 用 服从 均匀 先 验 概率 密度 函数 fel9)([0, 1] 区 间 上 的 
均匀 分 布 ) 的 随机 变量 日 建立 参数 的 模型 , 并 说 明了 最 大 后 验 概 率 估 计 是 x 在 本 节 
的 经 典 内 容 中 ， 没 有 先 验 ,9 被 当 作 常数 ， 但 是 最 大 似 然 估计 仍 是 6 = 并 


人 9. 2 ( 伯 努 利 随机 变量 的 均值 估计 ) 现在 我 们 希望 根据 次 独立 投掷 的 结 
,ni=1 若 正面 朝 上 ,反之 站 =0) 来 估计 彼 丰 均 久 的 全 和 正面 上 的 
站 9. 这 和 例 8. 8 中 贝 叶 斯 的 做 法 类 似 ， 假设 了 一 个 艾 匀 先 验 密度 . 发 现 后 验 概率 密度 函 
数 的 1 从 值 (最 大 后 验 概率 估计 ) 出 现在 “上 二“^/m, 其 中 人 是 观测 到 让 容 向 的 次 数 从 而 
/7 也 是 9 的 最 大 似 然 估计 ， 办 最 大 似 然 售 计生 是 



























































估计 量 是 无 偏 的 ， 同 时 它 具 有 相合 性 ， 因 为 根据 弱 大 数 定律 , Bn 依 概率 收敛 到 4. 


比较 最 大 似 然 估 计量 和 例 8. 8 中 用 贝 叶 斯 方法 得 到 的 线性 最 小 均 方 估计 量 是 很 有 意思 
的 . 我 们 说 过 ， 给 了 一 个 均匀 先 验 ， 后 验 均值 为 二 1)/(n+2) 因此, 最 大 似 然 估计 
Kn 与 通过 贝 叶 斯 方法 得 到 的 线性 最 小 均 方 估计 量 相近 却 不 一 样 . 然而 当 一 ce 时 ， 
两 个 估计 渐 近 一 致 . 

例 9. 3( 估 计 指 数 随机 变量 分 布 中 的 参数 ) ”考虑 顾客 到 达 某 服务 台 的 时 间 问 题 . 设 第 
7 个 顾客 到 达 服 务 台 时 刻 是 到. 假设 第 7 个 时 间 间 隔 六 二 3 一 1( 通 常设 n= 上 ) 服 
从 未 知 参数 为 9 的 指数 分 布 , 并 且 随 机 变量 六 1,…… :An 是 相互 独立 的 . (这 是 第 6 章 学 
习 的 泊 松 到 达 模 型 . ) 现 在 想 用 观测 六,…… ,Xn 来 估计 9 的 值 ( 可 解释 为 到 达 的 速率 ). 


相应 的 似 然 函数 是 

















ni nn 
fx(z:0) = [I Fx (zig) = ] [os 人， 
t=1 i=] 


对 数 似 然 函数 是 
ln xltz 人 一 mn 一 On， 
其 中 


对 9 求 导 得 到 (m/9) 一 yr, 令 其 为 零 ， 得 到 在 8>0 上 使 hfx(z:9) 最 大 的 是 
二 njyn. 所 得 估计 量 是 
. y,\-! 
nn 


它 是 到 达 间 隔 时 间 样 本 均值 的 倒数 , 可 以 解释 为 经 验 的 到 达 速 率 . 


注意 到 由 弱 大 数 定律 , 当 n 一 ce 时 , Ya/n 依 概率 收敛 到 EFSil = 1/9， 这 说 明 Bn 依 概 
率 收敛 到 9, 因而 估计 量 是 相合 的 . 


到 目前 为 止 , 我 们 都 在 讨论 单个 未 知 参数 的 情况 . 下 面 的 例子 中 含有 二 维 参数 . 


例 9. 4( 正 态 随 机 变量 均值 和 方差 的 估计 ) ”考虑 通过 2 个 观测 入 ,…… ,入 n 来 估计 正 
态 分 布 的 均值 和 方差 . 参数 向 量 为 & = 中 相应 的 似 然 函 数 是 
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n 
1 一 (了 :一 2 1/D， 
本 下 的 下 和 I .Ts ,—(Ti—J) /2 
xxz; Kv) = | fx,(Ti; Kv) = [I es : 
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i=1 eA 





通过 计算 上 式 可 以 写作 ? 


二 2 二 1,.…… ,nn 





过 
Xr 

三 将 
SN 
一 当 


1 vD 7 了 ， 1 anf \ \ 
(Ti—mMmntmna oA) = (Ti—mna) +(mn oA) +2(Ti— man) (mn mH), 


| 对 7 求 和 并 注意 到 














Pe 1 ns2 nl(mn 一 8) 
fx(T; 0) 三 一 一 一 有 “ep 一 一 ?GD 4 一 一 一 一) 
(2 27 27 


其 中 mn 是 随机 变量 


的 取 值 , 5% 是 随机 变量 
S? = 到 NM ) 
nn | 
的 取 值 . 对 数 似 然 函数 是 


可 1 J 

_ nsn nlman Oo— A)” 

In fx(z:p0) = 一 lnf27 ) 一 二 lnwv nm nme) 
2 2u 2 


将 上 式 分 别 对 h 和 r 求 导 ， 令 所 得 导数 为 零 ， 得 到 估计 值 和 估计 量 ， 


6, = {mn s2 ). ©, = (M,, 52). 


了 


注意 , Mn 是 样本 均值 , 同时 Sn 五 可 以 看 成 “样本 方差 ”， 易 证 , Eo[sn] 当 增 大 时 收敛 
到 vw 因而 54 是 渐 近 无 偏 的 ， 同 样 运用 弱 大 数 定律 可 知 , Mn 和 Sn 分 别 是 4 和 v 
的 相合 估计 量 . 


最 大 似 然 估 计 有 一 些 明 显 的 性 质 ， 比 如 说 ， 它 遵循 不 变 原理 :如 果 Bn 是 9 的 最 大 似 
然 估计 , 那么 对 于 任意 关于 9 一 一 映射 的 函数 hs = (9) 的 最 大 似 然 估 计 是 所 6 对 
于 独立 同 分 布 的 观测 ， 在 一 些 适 合 的 假设 条 件 下 , 最 大 似 然 估计 量 是 相合 的 . 


另 一 个 有 趣 的 性 质 是 当 9 是 标量 参数 的 时 候 ， 在 某 些 合适 的 条 件 下 最 大 似 然 估计 量具 
有 渐 近 正 态 性 质 ， 特 别 地 , 可 以 看 见 (9 一 9)/z(en) 的 分 布 接近 标准 正 态 分 布 ,其 中 
oz(6) 是 6 的 方差 ， 因 此 , 如 果 我 们 还 能 够 估计 c(6w), 就 能 进一步 得 到 基于 正 态 近 
似 的 误差 方差 估计 ， 当 9 是 向 量 参数 , 针对 每 个 分 量 可 以 得 到 类 似 的 结论 . 


最 大 似 然 估计 


。 已 知 随机 向 量 X = (X1,… ,Xn) 的 观测 值 为 X = (X1,… ,Xn), 其 联合 分 布 列 
为 px(z:6)( 或 连续 情况 下 的 联合 概率 密度 鸭 数 fx(7;0))， 




















。 最 大 似 然 估计 是 使 得 似 然 函 数 Px (7 外 (或 fxl7:; 四 达到 最 大 值 时 9 的 取 值 . 


。 关 于 9 一 一 映射 的 函数 h(9) 的 最 大 似 然 估计 是 Mb) 其 中 Bn 是 9 的 最 大 
似 然 估 计 . 
。 当 随机 变量 Xi 是 独立 同 分 布 时 ， 在 某 些 合适 的 假定 条 件 下 , 最 大 似 然 估计 的 
每 个 分 量 都 具有 相合 性 且 渐 近 正 态 . 


9.1.3 随机 变量 均值 和 方差 的 估计 


现在 来 讨论 一 个 简单 而 重要 的 问题 : 如 何 估计 一 个 概率 分 布 的 均值 和 方差 . 这 个 问题 与 
之 前 例 9. 4 讨论 的 问题 有 些 类 似 ， 不 同 的 是 , 此 处 没有 正 态 分 布 的 假设 ， 事 实 上 , 这 里 展 
示 的 估计 量 不 需要 用 到 与 Px (5; 外 (或 fxl7;0), 当 了 为 连续 型 随机 变量 时 ) 有 关 的 知识 . 


假设 观测 XX1,…* ,Xn 是 独立 同 分 布 的 ， 均 值 为 未 知 参数 9.9 最 自然 的 估计 量 是 样本 


可 















































由 于 ee ed ] = 9, 因而 此 估计 量 是 无 偏 的 ， 它 的 均 方 误差 和 方差 相等 ， 是 v/",， 
其 中 了 是 Xi 的 方差 .由 计算 看 出 , Mn 的 均 方 误差 并 不 依赖 于 9， 更 进一步 ， 由 弱 大 
数 定律 ， 估计 量 依 构 率 收敛 到 9， 因 而 具有 相合 性 . 


样本 均值 未 必 是 方差 最 小 的 估计 量 ， 比 如 说 , 考虑 估计 量 Bn = 0 完全 忽略 观测 的 一 个 
估计 (这 个 估计 总 是 零 ). Bn 的 方差 是 零 ， 但 偏差 bol8n) = -9， 特 别 地 , 依赖 8 的 均 方 
误差 为 全 

下 一 个 例子 将 比较 样本 均值 和 在 8. 2 节 特 定 假设 下 推导 的 贝 叶 斯 最 大 后 验 概 率 估计 量 . 
例 9.5 假设 观测 Al … ,Xn 是 正 态 独立 同 分 布 的 , 具有 共同 的 未 知 均值 9 和 已 知 方 


差 x 在 例 8. 3 中 应 用 的 是 贝 叶 斯 方法 ， 假 设 参数 9 服从 正 态 的 先 验 分 布 .对 于 9 的 先 
验 均值 是 零 的 情况 , 得 到 下 面 的 估计 量 : 


























这 个 估计 量 是 有 偏 的 , 因为 [和 = m9/(n+) 且 pe(en) = -9/(n+ .但 是 
dm peten) 一 0 所 以 6 是 渐 近 无 偏 的 . 它 的 方差 是 

Ul 

(n+ 1)2° 








vare(©n) = 


它 比 样本 均值 的 方差 wm 略 小 一 些 . 注意 这 个 例子 的 特殊 之 处 , varefe) 不 依赖 于 9. 
均 方 误差 等 于 
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~ 2 人， 人 un 
Eg [9 一 byl ) 十 vare(On) = (n+1) 下 (n+ 1)2 


假设 除了 样本 均值 (9 的 估计 量 ) 


be 
nn A 


M. = 


我 们 还 对 方差 v 的 估计 量 感 兴趣 . 一 个 自然 的 选择 是 


辣 1 n . 
52 = D(X Mn)’, 
i=1 


这 和 基于 正 态 性 假设 的 例 9. 4 推导 得 出 的 最 大 似 然 估计 量 一 致 . 
根据 事实 





得 到 


四 1 n 、 n 
Eo)[S2] 一 一 Et) > X22 —2Mn YXi+ oa 


i=] i=1 


=E(g,w) : > Xt 一 2M2+ 加 
> 











因此 , 54 不 是 v 的 无 偏 估计 量 ， 尽 管 它 是 渐 近 无 偏 的 . 
通过 适当 的 比例 缩放 可 以 得 到 一 个 方差 的 无 偏 估计 量 








之 前 的 计算 说 明 








因而 Sa 是 v 的 一 个 无 偏 估计 量 ( 对 于 所 有 肋 . 但 是 ， 当 很 大 的 时 候 , Sx 和 57 
质 上 是 一 样 的 . 


随机 变量 的 均值 和 方差 估计 
观测 值 六 1,…… ,六 n 是 独立 同 分 布 的 , 均值 9 和 方差 7 均 未 知 . 
。 样本 均值 








是 9 的 一 个 无 偏 估计 量 , 它 的 均 方 误差 是 v/n. 
。 方 差 的 估计 量 有 两 个 

5n = SX — M,)’, $2 = Sx — MM, )2. 

- 玫 n \ L n Sn 二 1 全 | t 


。 当 Xi 服从 正 态 分 布 , 信 计 量 S54 和 最 大 似 然 估计 量 相等 ， 它 有 偏 但 是 渐 近 无 
估计 量 Sn 是 无 偏 的 ， 当 n 很 大 的 时 候 , 方差 的 两 个 估计 量 本 质 上 是 一 致 














9.1.4 置信 区 间 


考虑 未 知 参数 9 的 一 个 估计 量 Bn. 除了 估计 所 得 的 数值 ， 我 们 还 想 建立 一 个 所 谓 的 置 
信 区 间 . 粗糙 的 说 , 这 个 区 间 以 某 个 很 高 的 概率 包含 参数 9 的 真 值 . 


为 准确 定义 ， 我 们 首先 固定 一 个 希望 达到 的 置信 水 平 1 一 o, 其 中 a 往往 是 个 很 小 的 
数 . 然后 用 一 个 略 小 的 估计 量 6% 和 一 个 略 大 的 估计 量 9 代替 点 估计 量 eu 于 是 
= < O97, 且 











Pe(O7 <g9< Ot+)>1—a, 


对 于 9 每 个 可 能 的 取 值 成 立 ， 注 意 ， 与 一 般 估 计量 类 似 , 965 和 9% 也 是 观测 的 函数 ， 
因而 是 其 分 布依 赖 8 的 随机 变量 . 称 [eu,en] 为 (1 一 a) 置信 区 间 . 


例 9.6 假设 观测 Xi; 是 正 态 独立 同 分 布 的 ， 均 值 9 未 知 ,方差 已 知 . 样本 均值 估 


计量 








二 
n 


是 服从 正 态 分 布 的 ”均值 为 9， 方 差 为 v7. 利用 标准 正 态 分 布 的 概率 分 布 函数 (2) 
(可 从 正 态 分布 表 中 查 得 ), 有 (1.96) =0.975 =1— a/2 且 得 到 


B= 


n 









































3 这 里 用 的 是 独立 正 态 随机 变量 的 和 还 是 正 态 的 重要 事实 ， 参 见 第 4 章 . 























P， |@ 一 引 一 1.96 | = 0.95. 
Vu/n | 





可 以 整理 为 如 下 形式 


| t ) 
/ oo 
| 


po (8, —1.96,/— < 0 < ,+ 1.96 = 0.95. 
V n \ n 
这 说 明 


[vy | U 
le 一 1.96 Vr hate, + 1.96 /9 


jv 
是 95% 置 信 区 间 , 分 别 定 义 Bi 和 87 为 jn 和 


在 之 前 的 例子 中 , 我 们 想 用 这 样 的 表述 来 刻画 一 个 95% 置 信 区 间 : 真实 的 参数 落 在 置信 
区 间 内 的 概率 是 95%. 但 是 这 样 的 表述 是 模糊 的 ， 比 如 说 , 假设 得 到 观测 值 之 后 得 到 置信 
区 间 [-2. 3, 4. 1j. 我 们 不 能 说 9 有 95% 的 概率 落 在 [-2. 3, 4. 1], 因为 这 种 表述 并 不 包含 任 
何 随机 变量 . 毕竟， 在 经 典 方法 中 ,9 是 一 个 常数 .实际 上 , 短语 “真实 参数 落 在 置信 
区 间 ” 中 的 随机 项 是 置信 区 间 ， 而 不 是 真实 参数 . 


下 面 是 一 个 具体 的 解释 ， 假 设 9 是 固定 的 . 我 们 运用 相同 的 统计 过 程 建 立 了 很 多 个 置 
信 区 间 . 比如 每 次 获得 2 个 独立 的 观测 并 建立 95% 置 信 区 间 . 可 以 预期 有 95% 的 置信 区 间 
将 包含 9. 无论 9 的 值 是 多 少 , 这 总 是 正确 的 . 


日 _ 196\ 日 + 1.96 V5 

















置信 区 间 
。 对 于 一 维 的 未 知 参数 9， 其 置信 区 间 是 一 个 以 很 高 概率 包括 9 的 区 间 , 端点 
为 日 。 和 = 


。65 和 6 是 依赖 于 观测 X1,… ,Xn 的 随机 变量 . 
。(1 一 Q) 置信 区 间 对 于 9 所 有 可 能 的 取 值 满足 
Pe(87 <9< 8+)>1—-a. 
通常 情况 下 ， 置 信 区 间 是 包含 估计 量 Bn 的 区 间 . 更 进一步 , 在 许多 符合 要 求 的 置信 区 
间 中 ， 我 们 喜欢 长 度 最 短 的 . 但 是 , 这 并 不 容易 找到 ， 因 为 误差 en 一 9 的 分 布 或 者 是 


未 知 的 , 或 者 是 依赖 于 9 的 ， 所幸 在 很 多 重要 的 模型 中 , Bn 一 9 的 分 布 是 渐 近 正 态 无 偏 
的 . 这 就 是 说 随机 变量 




















©,—0 


V vars(©,) 








的 概率 分 布 函 数 在 增加 的 时 候 趋 于 标准 正 态 概 率 分 布 函数 (对 于 9 所 有 可 能 的 取 
值 )， 现 在 我 们 可 以 像 例 9. 6 一 样 , 导出 近似 的 置信 区 间 . 

9.1.5 基于 方差 近似 估计 量 的 置信 区 间 

假设 观测 总 是 正 态 独立 同 分 布 的 ， 均 值 9 和 方差 v 均 未 知 . 用 样本 均值 

pe Ms pe 


n 





On = 


nt 


来 估计 9, 用 之 前 介绍 的 无 偏 估计 量 








来 估计 r 特别 地 ， 用 Sa/n 来 估计 样本 均值 的 方差 v/n. 给 定 a 可 以 用 上 述 估 计 和 
中 心 极限 定理 构造 一 个 (近似 ) 1 一 a 置信 区 间 , 即 





其 中 z 由 关系 式 


8 Or 
TDP{z) 二 1] 一 


和 正 态 分 布 表 得 到 , 5 是 Sn 的 正平 方 根 ， 例 如 ， 若 a = 0.05, 利用 事实 
(1.96) = 0.975 = 1 一 Q/2 (从 正 态 分 布 表 中 可 知 ) 得 到 近似 95% 置 信 区 间 的 形式 为 


sw 5 sw 5 
ts 1.96—，, 局。 人 1.96—= = 
Vv nn vn 








注意 在 这 种 方法 中 ， 两 个 不 同 的 近似 起 了 作用 .首先 ,将 ev 看 成 正 态 的 随机 变量 ， 其 
次 , 用 估计 Sn/n 代替 了 Bn 的 真实 方差 wm. 

即使 在 X; 是 正 态 随机 变量 的 特殊 情况 下 , 上 面 建立 的 置信 区 间 仍 然 是 近似 的 . 这 是 因 
为 Sn 只 是 真实 方差 v 的 近似 估计 ， 而 随机 变量 


Vn(O, 一 日 


妈 一 





办 ， 
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不 是 正 态 的 . 但是， 对 于 正 态 的 Xi , In 的 概率 密度 函数 不 依赖 于 9 和 v， 可 以 显 式 
地 计算 出 来 . 称 五 的 分 布 为 自由 度 为 n-1 的 分 布 . 类似 标 准 正 态 分 布 的 概率 密 
度 函数 ， 它 是 对 称 钟 形 的 ， 但 是 散布 更 广 , 尾部 更 重 ( 见 图 9. 3)， 感 兴趣 的 各 种 区 间 的 
概率 可 以 通过 地 分 布 表 查 到 , 二 分 布 表 类 似 于 正 态 分 布 表 因此, 当 XX: (近似 ) 正 态 并 
且 w 相对 较 小 的 时 候 , 下 面 给 出 的 是 更 加 精确 的 置信 区 间 : 






























































| 4 分 布 具 有 很 有 意思 的 性 质 并 且 有 闭合 式 的 表达 式 , 但 是 精确 的 公式 对 达到 我 们 的 目的 并 不 重要 . 有 时 候 它 又 被 
称 作 “学 生 分 布 ”. 这 是 1908 年 由 受 雇 于 都 柏林 酿酒 三 的 威廉 。 戈 塞 特 发 表 的 . 他 假冒 学 生 的 名 义 写 了 这 篇 文章 ， 因 
| 为 以 他 本 人 的 名 发 表 文章 在 当时 是 被 禁止 的 . 苹 塞 特 致力 于 挑选 产量 最 好 的 大 麦 , 但 只 有 较 小 的 样本 数量 . 



























































































































































Y 
On 六 .nn 


加 i Te , 
其 中 z 由 关系 式 


yn 一 1(2 )=1-= 


得 到 , Wn-1l2) 是 自由 度 为 六 1 的 万 分 布 的 概率 分 布 函数 , z 的 值 可 以 通过 查 表 得 到 . 
这 些 表 可 以 在 很 多 地 方 找到 , 下面 给 出 了 一 个 简略 的 版 本 . 


人 





一 

-分布 (n==11) 

-分 布 (n= 二 3) 
-mm 人 分布 (1 二 2) 





UA -1 0 1 2 9 4 6 
图 9.3 自由 度 为 zx-l 的 大 分 布 的 概率 密度 函数 与 标准 正 态 概率 密度 函数 的 比较 


另 一 方面 ， 当 n 比较 大 (如 7 三 50) 的 时 候 , 六 分 布 和 正 态 分 布 非常 接近 ， 因 此 可 以 
直接 用 正 态 分 布 表 ( 表 3. 1). 


表 9.1 本 分 布 表 : 给 定 自由 度 为 n-l1 时 大 分 布 的 概率 分 布 函数 亚 "-1(2). 
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ce 上 呈 282 1. 645 1. 960 2. 326 2.576 3. 090 





























表 中 左 列 是 自由 度 7 一 1, 顶 行 是 尾部 概率 了 3, 顶 行 以 下 的 每 行 是 于 n-1(2) 三 1 一 了 中 z 的 值 


例 9.7 利用 电子 天 平 得 到 一 个 物体 重量 的 八 次 测量 值 . 测量 值 是 真实 的 重量 加 上 服从 
0 假设 每 次 观测 直接 的 误差 是 相互 独立 的 .得 到 
结果 如 下 : 


0.554 7, 0.540 4, 0.636 4, 0.643 8, 0.491 7, 0.567 4, 0.556 4, 0.606 6. 


利用 tt 分 布 来 计算 95% 置 信 区 间 . 样本 均值 8 是 0. 574 7, Bn 方差 的 估计 是 


~ | 


$2 
Tn _ = 3995 2.10-4 
> 一 一 > 日,)2 = 3.295 2.10-4. 

















因而 Sn/Vn = 0.018 2， 根 据 二 分 布 表 ,1 一 严 7(2.365) = 0.025 = a/2， 所 以 


9 的 95% 置 信 区 间 为 
9 oer Sn 9 oer 5 广 : "10 
日 ,一 Pe 日 ,十 0 = [0.531, 0.618]. 
与 由 正 态 分 布 表 得 到 的 置信 区 间 
和 oF Sn 广 oF Sn £9 sw 
On = gs On = co 一 [0.539.0.610] 


相 比 ， 后 者 更 窗 ， 也 即 对 于 点 估计 9 = 0.574 7 的 精度 更 持 乐 观 的 态度 . 


旧 前 为 且 全 这 乓 站 才 症 全 区 可 信和 村 末代 的 特殊 估计 量 S57. 然而， 方差 可 能 

不 同 的 估计 量 或 近似 ， 比 如 , 假设 观测 六 ,… ,Xn 是 独立 同 分 布 的 伯 努 利 随机 变量 , 未 

知 均值 9 和 方差 "= 所 1 一 外 除了 Sn ;方差 的 另 一 个 近似 是 en(1 一 6m)， 事 实 上 , 当 
n 增加 Bn 依 概率 收敛 到 9, 因此 9n(1 一 Bn) 也 收敛 到 方差 v= 9(1 一 外 还 有 一 种 可 











能 是 观测 到 9(1 一 9) 1/4 对 于 2E [0 总 成 立 ,用 1/4 作 为 方差 的 保守 估计 ， 下 面 的 
例子 就 说 明了 这 些 选 择 . 


例 9. 8 (选举 问题 ) ”考虑 5. 4 节 例 5. 11 的 选举 问题 ,我们 想 估 计 的 是 选民 中 支持 某 位 候 
选 人 的 比例 9. 收集 取 个 独立 选民 的 回应 XX1,… ,Xn, 其 中 将 了 看 作 伯 努 利 随机 变 
量 ， 阁 第 7 位 选民 支持 则 Xi; = 1， 否 则 为 0. 用 样本 均值 Bn 来 估计 9, 并 用 正 态 逼 近 
方法 来 建立 置信 区 间 . 但 正 态 副 近 方 法 需要 对 的 方差 进行 估计 , 而 对 于 方差 的 估计 ， 
有 不 同 的 方法 . 为 具体 化 , 假设 样本 数 为 n = 1 200 的 选民 中 有 684 位 支持 候选 人 ， 


eu = 684/1 200 = 0.57. 




















(a) 如 果 用 方差 的 估计 





Th. 684\: ， ~/ 684\ 
=—— [684:.(1——) +(1200— 684): [0——— 
1 199 1 200 1 200 


~ 0.245 
并 将 Bn 看 作 均 值 9 方差 0. 245 的 正 态 随机 变量 ， 则 得 到 95% 置 信 区 间 
i 5S, 2 5 __, 1.96:vV0.245  _, 1.96. V0.245 
QO, — 1.96—=, On, +1.96—E| = |10.57 一 一 0.57+ 一 一 一 一 
Vn 困 | V1 200 V1 200 


一 [0.542，0.598]. 


(b) 方 差 估 计 





Bn(1 — On) 和 1 i 0.245 
nn IT200\ 120/ 一 人 


其 结果 和 (a) 是 一 样 的 (精确 到 三 位 小 数 ), 所 以 95% 置 信 区 间 为 


6 1 96 Venll = en ) 后 ] 96 Venll = QO, ) 
ne TN nT 1. ”一 3 


还 是 [0. 542，0. 598]. 


(c) 利用 方差 的 上 界 1/4 作 为 方差 的 估计 ， 得 到 的 置信 区 间 是 











@, — 1.9612, 6, 上 +19632 057 1%-0/2 ©57196:(1/2) 
ri i Mil ha 一 of 十 
VI20 1 200 


=[0.542, 0.599]， 


比 起 (a) 和 (b) 的 结果 ， 仅 仅 宽 了 一 点 ， 实 际 上 和 前 面 的 几乎 一 样 . 


图 9. 4 比较 了 利用 方法 (b) 和 (c) 得 到 的 置信 区 间 , 其 中 国定 Bn = 0.57, 样本 数量 在 /10 
到 10 000 之 间 变化 ， 可 以 看 见 , 当 在 几 百 的 时 候 ( 这 也 是 典型 的 调查 样本 量 )， 
区 别 很 小 ， 但 是 需要 注意 , 若 a 的 取 值 很 小 的 时 候 , 两 者 的 差异 是 十 分 明显 的 . 因此 , 在 
7 比较 小 的 时 候 , 需要 特别 小 心 . 


0.4 














10: 102 103 104 
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图 9.4 例 9.8 中 方法 (b) 和 (c) 中 的 近似 方法 构造 的 置信 区 间 , 其 中 9 = 0.57 是 固定 
的 , 样本 数量 在 r=10 到 天 10 000 之 间 变 化 


9.2 线性 回归 


本 节 讨 论 的 问题 是 用 线性 回归 的 方法 对 感 兴趣 的 两 个 或 更 多 个 变量 之 间 的 关系 建立 模 
型 . 这 种 方法 的 一 个 特征 是 : 它 可 以 由 最 小 二 乘法 完成 操作 , 而 不 需要 任何 概率 上 的 解 
释 ， 当 然 , { 线 性 回归 } 也 可 以 在 各 种 概率 框架 之 下 进行 解释 . 


首先 考虑 两 个 变量 的 情况 ， 然 后 推广 到 多 个 变量 之 间 关系 的 讨论 . 现在 想 要 对 感 兴 趣 的 
两 个 变量 x 和 y 的 关系 建 模 ( 例 如 受 教育 的 年 数 和 收入 ) , 为 此 收集 了 一 些 数据 
(区 = 例如 zi 是 第 7 个 个 体 受 教育 的 年 数 ,yi 是 相应 的 年 收入 . 通常 一 
个 关于 样本 的 二 维 散 点 图 会 显示 zi 和 上 之 间 有 规律 的 、 近 似 线性 的 关系 . 于 是 自然 
想 建立 如 下 形式 的 线性 模型 









































yO + Oz, 
其 中 名 和 抽 是 未 知 的 待 估 参 数 . 
特别 地 ， 给 定 参 数 的 估计 钢 和 久 , 模型 对 zi 相应 的 克 的 预测 是 
= + Oi. 
一 般 地 ,区 和 已 知 的 如 的 值 会 有 差异 
Yi = Yi — Yi 
称 为 第 i 个 残 差 . 残 差 小 的 估计 被 认为 是 很 好 地 拟 合 了 数据 ， 为 此 , 线性 回归 在 所 有 
如 和 负 中 选择 使 得 残 差 平方 和 
人 一 名) = Sy -名 一 机 2 
i i 


最 小 的 名 和 负 作为 未 知 参数 名 和 负 的 估计 . 图 9. 5 作 了 说 明 . 








图 9.5 由 数据 集 {(7i; 太 ,i 二 1,… ,7n} 出发, 选择 加 和 扩 ， 使 之 成 为 残 差 
i 一 久 一 外 Ti 的 平方 和 最 小 的 估计， ,得 到 模型 y 一 加 十 gr 


注意 ， 在 实际 问题 中 ， 关 于 线性 模型 的 假定 未 必 是 正确 的 , 比如 可 能 实际 上 两 个 变量 之 
间 的 关系 是 非 线性 关系 ， 因 此 在 实际 工作 中 , 我 们 往往 首先 需要 进行 模型 的 鉴定 工作 ， 
就 是 检查 数据 是 否 支 持 线 性 模型 的 假设 . 只 有 经 过 鉴定 , 并 确认 我 们 所 处 理 的 模型 是 一 
个 线性 模型 的 情况 下 , 我 们 才 应 用 最 小 二 乘法 去 找 出 这 个 线性 模型 . 


为 推导 线性 回归 估计 钢 和 负 的 公式 , 我 们 发 现 一 旦 给 定数 据 , 残 差 平方 和 是 关于 多 
和 抽 的 二 次 函数 .为 求 最 小 值 , 分 别 对 名 和 乞求 导 ， 再 令 导 数 为 零 .， 经 过 计算 , 得 
到 解 的 简单 显 式 表 达 式 ， 总 结 如 下 . 


























线性 回归 
给 定 个 数据 对 (zi, yi 使 得 残 差 平方 和 最 小 的 估计 是 
hi 
其 中 
5 ee 了 








全 9.9 比萨 斜 塔 随 着 时 间 的 推移 倾斜 得 越 来 越 历 害 . 下 表 记 录 了 从 1975 1987 年 间 塔 
一 固定 点 的 位 移 (此 点 的 实际 位 置 和 塔 垂直 的 时 候 该 点 的 位 置 的 距离 ( 米 数 ) ) 的 测量 
和 























1983 | 1984 | 1985 | 1986 | 1987 
2.964 |2.964 |2. 965 |2.966 |2.967 2.969 |2.971 |2.971 |2.972 |2.974 |2.975 
8 3 7 5 2 7 


现在 用 线性 回归 来 估计 模型 了 = 名 十 rz 中 的 参数 品 和 见 ， 其 中 x 是 年 份 ， 是 倾 
和 斜 值 . 根据 回归 公式 得 到 
lr =0.0009,， 6 =T— i=1.1233, 


5 (zi — zy 








hi = 


估计 的 线性 模型 为 
见 图 9. 6. 


数据 点 
2.974 估计 的 线性 模型 


962 
1974 1976 1978 1980 1982 1984 1986 1988 
年 


图 9.6 例 9.9 中 比萨 斜 塔 的 倾斜 数据 和 倾斜 度 的 估计 模型 


9.2.1 最 小 二 乘 公 式 的 合理 性 ? 


? 跳 过 这 一 小 节 不 会 影响 课程 的 连续 性 . 











基于 概率 论 的 考虑 , 可 从 不 同 角度 来 说 明 最 小 二 乘 方法 的 合理 性 . 


(a) 最 大 似 然 ( 线 性 模型 ， 正 态 噪声 ). 假设 zi 是 给 定 的 数 ( 不 是 随机 变量 ), yi 是 随机 变 
量 i 的 实现 , i 的 模型 为 


Y=+Ori+ Wi, 1=1,.…,n, 


其 中 Wi 是 均值 为 零 ， 方 差 为 oz 的 正 态 独立 同 分 布 随机 变量 . 因而 于 也 是 独立 的 正 
态 随机 变量 ， 均 值 各 + bzs 方差 2 似 然 函 数 的 形式 为 


n 3 、D 

1 (天 一 如 一 现下 六 
-(y:0) = 一 exp 4 一 -一 一 ，. 
fyly 本 本 I { 9 } 


似 然 函数 达到 最 大 等 价 于 表达 式 中 的 指数 部 分 达到 最 大 , 即 残 差 平方 和 最 小 ， 因 而 , 基 
于 最 小 二 乘法 的 参数 加 和 抽 的 线性 回归 估计 可 以 看 作 是 了 的 期 望 具有 线性 结构 的 

正 态 模型 中 参数 加 和 负 的 最 大 似 然 估计 .事实 上 ， 当 与 zi 有 这 种 关系 时 ,名 和 
bi 的 基于 最 小 二 乘法 的 估计 是 无 偏 估 计 ， 更 进一步 , 估计 的 方差 可 以 用 简便 的 公式 算 

得 (参见 本 章 末 习题 ), 然后 用 9. 1 节 中 的 方法 建立 如 和 负 的 置信 区 间 . 


(b) 近似 贝 叶 斯 线性 最 小 均 方 估计 (在 可 能 的 非 线性 模型 中 ). 假设 zi 和 yi 分 别 是 Xi 
和 的 实现 .不同 数 对 (Xi i) 之 间 是 独立 同 分 布 的 ,但 是 大 和 下 的 二 维 联合 分 布 
未 知 . 考虑 服从 同一 分 布 的 男 一 独立 数 对 Xo, To) 假设 观测 到 Xo 并 希望 用 线性 估计 量 
如 二 名 十 入 < 来 估计 部 从 8.4 节 得 知 给 定 Xo, 则 2 的 线性 最 小 均 方 估 计量 的 形式 为 


























COv | X0, Yo) a 
E+ 一 (XI0 ~ ElXo|), 
D9| varl Xo) . [Xol 
也 即 
_ COV [ 入 0， Y0) 
0 = 一 一 ，、， 负 一 卫 [7 ~— OElXol. 
1 vart Xo) 0 [ 0] 1 [ 0] 


由 于 不 知道 (Xo,20) 的 分 布 ， 用 z 作为 ELXol 的 估计 ,7 为 Blo 的 估计 ， 
(ri 一 2)(yi 一 四/n 为 cov(Co, 玖 ) 的 估计 , Zi 一 了 jn 为 var(CXo) 的 估计 . 将 这 些 
估计 代入 名 和 负 的 公式 中 , 发 现 此 处 得 到 的 线性 回归 参数 估计 表达 式 就 是 之 前 给 出 
的 最 小 二 乘法 公式 . 值得 注意 的 是 这 里 的 论断 不 需要 线性 模型 正确 性 的 假设 . 


(c) 近似 贝 叶 斯 最 小 均 方 估计 (线性 模型 ) . 假设 数据 对 li 到) 独立 同 分 布 ， 和 (b) 中 
一 样 . 还 有 附加 的 假设 :数据 对 满足 模型 

Y: = 0 + OX; + Wi, 
其 中 Wii 是 独立 同 分 布 的 零 均 值 噪声 项 ， 与 Xi 独立 . 根据 条 件 期 望 的 最 小 均 方 性 质 ， 
可 知 EAXol 在 所 有 函数 g 中 使 得 估计 误差 平方 的 期 望 Elzo 一 g(X0)) |] 最 小 ， 根 据 

















假设 , FlolXo] = 名 十 抽 Xo. 因而 真实 的 参数 和 和 外 使 得 
E[(Yo —% — 9X0) 


达到 最 小 ， 由 弱 大 数 定律 , 这 个 表达 式 是 当 n 一 oo 时 
1 n 2 i 
I 
nn 己 ] 


的 极限 . 这 说 明 通 过 使 上 述 表达 式 (用 zi 和 其 分 别 代替 Ai 和 蕊 达到 最 小 是 使 
EI 一 和 一 负 Xo) ] (真实 参数 ) 达到 最 小 的 较 好 的 近似 . 而 使 这 个 表达 式 达到 最 小 和 使 
残 差 平 方 和 达到 最 小 是 一 样 的 . 


9.2.2 贝 叶 斯 线性 回归 


| 5 忠 过 这 一 小 节 不 会 影响 课程 的 连续 性 . 
线性 模型 和 回归 并 不 仅仅 与 经 典 推断 方法 相关 . 下 面 在 贝 叶 斯 框架 中 来 学 习 它们 ， 特 别 
地 , 将 zi，…… ,zn 当 作 给 定 的 数 , t，… ,yn) 是 向 量 了 = 03 如) 的 观测 值 , 随机 向 
量 3 满足 线性 关系 














Yi = 0 + O17; + Wi. 
这 里 ,9 = (80,91) 是 待 估 参 数 , W1,… , Wn 是 独立 同 分 布 的 随机 变量 ， 均 值 为 零 ,方差 
已 知 为 o?， 与 贝 叶 斯 哲学 思想 一 致 ,将 eo 和 91 建 模 为 随机 变量 . 假设 
Bo0,91,Wi,… ,Wn 相互 独立 , B80 和 91 均值 为 零 ,方差 分 别 是 c0 和 cl. 
基于 90,91, WW1,… ,Ws 都 是 正 态 随机 变量 的 假设 , 现在 可 以 利用 最 大 后 验 概率 方法 来 
推导 贝 叶 斯 估计 量 . 在 所 有 名 和 负 中 让 后 验 概率 密度 函数 felY( 名 ; 负 | 加 ,…* ,yn) 最 
大 . 根据 贝 叶 斯 准则 , 后 验 概率 密度 函数 是 ? 


| 7 注意 这 一 段 用 到 条 件 概率 的 概念 ， 因 为 是 在 贝 叶 斯 框架 中 . 















































Jelb:8)Pel 加 ;用 ) 


除 以 一 个 和 (0,91) 无 关 的 归 一 化 常数 ， 根 据 正 态 性 假设 , 表达 式 写成 


倪 0 Ee (yi— tm — ri) 
CcC* exp ee 7 "Exp pd 7 exp Pe Sr 
, { 208 } , { 20t lI | 20? 


其 中 c 是 和 ( 铝 , 负 ) 无 关 的 归 一 化 常数 ， 等 价 地 , 在 所 有 铝 和 负 中 使 表达 式 


Fr oD c D) e 了 
2o0 201 202 














最 小 ， 注 意 , 这 和 前 面 经 典 推断 中 期 望 达到 最 小 的 表达 式 学 =1(Ww 一 铝 91) 是 类 似 的 
( 当 m 和 1 足够 大 , 可 以 忽略 罚 /208 和 外 /201 则 这 两 个 最 小 化 是 一 样 的 ) ， 为 求 最 











小 值 , 分 别 对 名 和 求 导 ， 再 令 导数 为 零 ， 经 过 计算 , 得 到 如 下 解 
贝 叶 斯 线性 回归 
。 模 型 ; 

(a) 假设 有 线性 关系 Yi = eo+ elmi+ Wi 

(b) 认为 zi 是 已 知 常数 

(c) 随机 变量 80,91, Wi,… ,Wh 服从 正 态 分 布 且 独 立 . 

(d) 随机 变量 eo 和 91 均值 为 零 ,方差 分 别 是 呀 和 唾 

(e) 随机 变量 Wi 均值 为 零 ， 方 差 为 02 

估计 公式 : 

给 定数 据 对 (zi eu 和 91 的 最 大 后 验 概率 估计 是 





a (zi — 1)(yi — 9), 
oF of De ii 一 五 > ， 





这 里 有 一 些 注 释 . 


(a) 如 果 与 中 和 9f 相 比 o? 很 大 , 则 得 到 钢 守 0, 抽 守 0. 这 种 情况 是 噪声 很 大 ， 观 测 
基本 被 忽略 , 因而 估计 和 先 验 均值 (假设 为 零 ) 是 一 样 的 . 


(b) 如 果 让 先 验 方差 ru 和 ci 增加 到 无 穷 大 ， 那么 不 存在 任何 关于 Bo 和 .91 的 有 用 
的 先 验 信息 . 在 这 种 情况 下 ， 极 大 后 验 概率 估计 和 o? 不 相干 , 其 结果 就 和 之 前 推导 的 
经 典 的 线性 回归 公式 一 样 


(c) 为 简单 起 见 假设 z= 0 估计 91 时 ,观测 的 取 值 区 的 权重 和 其 相关 zi 的 值 
是 成 比例 的 . 这 可 以 从 直观 上 来 解释 : 当 zi 很 大 ,下 中 917i 的 贡献 就 相对 大 , 从 而 下 
含有 关于 61 有 用 的 信息 ， 反 之 , Ti 为 0, 观测 站 和 951 独立 ， 进 而 可 以 被 忽略 . 


(d) 估计 负 和 抽 是 友 的 线性 函数 , 而 不 是 zi 的 ， 然 而 要 记得 , zi 是 外 生 的 、 非 随 
机 的 数 , 而 到 是 随机 变量 天 的 观测 值 . 因而 从 8. 4 节 定 义 的 意义 上 来 说 , 最 大 后 验 概 

















率 估计 量 名 和 负 是 线性 的 . 再 看 我 们 的 正 态 性 假设 , 这 些 估计 量 同 时 又 是 贝 叶 斯 线性 
最 小 均 方 估计 量 和 最 小 均 方 佑 计量 (参考 8. 4 节 末 尾 的 讨论 ). 


9. 2.3 多 元 线性 回归 
到 目前 为 止 ， 我 们 关于 线性 回归 的 讨论 只 包含 了 一 个 解释 变量 ， 记 作 x 也 即 一 元 回 
归 . 其 目标 是 建立 一 个 用 zi 的 值 来 解释 yi 的 观测 值 的 模型 .但 是 很 多 情况 下 ， 有 很 多 
潜在 的 解释 变量 (比如 我 们 考虑 解释 年 收入 的 模型 ， 它 是 关于 年 龄 和 受 教育 年 数 的 函 
数 ) . 这 类 的 模型 称 为 多 元 回归 模型 . 
举例 来 说 ， 现 在 的 数据 由 三 元 组 的 形式 (zi,yi, 气 ) 组 成 , 我们 想 估 计 参 数 久 , 模型 如 下 
Yy 守 0 十 抽 工 十 仍 Z. 

比方 说 , 对 于 随机 样本 中 的 第 7 个 人 ,Wi 可 以 是 收入 , Ti 是 年 龄 , 二 是 受 教育 年 数 .在 所 
有 的 , 负 和 名 中 寻找 使 得 残 差 平方 和 

5 Yi— 0 — O07i — Oo ) 

i=1 
最 小 的 解 . 在 理论 上 , 多 个 解释 变量 的 情况 与 两 个 解释 变量 的 情况 是 没有 本 质 差 别 的 . 
回归 估计 针 的 计算 在 概念 上 和 单个 解释 变量 情形 一 样 , 但 显然 公式 要 复杂 得 多 . 
一 个 特例 ， 假 设 气 = 区 处 理 的 模型 变 为 
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如 果 能 够 找到 如 关于 Ti 是 二 次 函数 关系 的 解释 , 那么 这 个 模型 是 合适 的 (当然 更 高 

阶 多 项 式 模型 也 是 可 能 的 ). 虽然 二 次 函数 关系 是 非 线性 的 ， 但 这 个 模型 仍 被 称 作 线 性 

的 人 所 和 观测 的 随机 变量 于 是 线性 关系 .推广 之 , 可 以 考虑 这 种 一 般 形 
式 的 模型 











mm 
yy 守 甸 十 Qihj(z). 
j=1 


过 取 遍 负 , 负 ,… ,9m 使 得 表达 式 


感 


mm 


n 
>》 (yi— Wo — >_ hj(ri))? 


取 值 最 小 即 得 到 参数 的 估计 久 , 负 ,…* ,9m. 这 样 的 最 小 化 问题 的 解 已 经 有 现存 的 公式 . 它 
们 都 属于 多 元 线性 回归 的 范畴 . 


9.2.4 非 线性 回归 











如 果 假 设 的 关于 未 知 参数 的 模型 结构 是 非 线性 的 , 可 将 线性 回归 方法 将 推广 到 非 线性 的 
情况 . 特别 地 ， 假 设 变量 x 和 y 关系 如 下 


y 名 hlz: 0), 


其 中 及 是 给 定 的 函数 ,8 是 待 佑 参数. 对 于 已 知 的 数据 对 (Ti,9),?1 二 1,… ,n, 欲 寻找 8 
使 得 残 差 平 方 和 








nn 
>_(y: 一 (zi:g))2 
£=1 


达到 最 小 . 

与 线性 回归 不 同 ， 这 类 最 小 化 问题 通常 并 没有 闭合 式 的 解 . 但 是 解决 实际 问题 时 有 一 些 
相当 有 效 的 计算 方法 .和 线性 回归 类 似 , 非 线 性 最 小 二 乘 估计 源 自 参数 9 的 最 大 似 然 
估计 . 假定 数据 如 来 自 下 列 的 模型 ， 


= hr + Wi 1=1,.… ,nn, 


其 中 9 为 未 知 的 回归 模型 的 参数 , Wi 是 独立 同 分 布 的 零 均值 正 态 随机 变量 .这 个 模型 
的 似 然 函 数 的 形式 为 























- (yi — h(zi: 0)) 
fy(y:0) = | | 一 全 
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其 中 o? 为 Wi 的 方差 . 似 然 函 数 最 大 等 价 于 上 式 中 指数 部 分 最 大 , 也 就 是 使 得 残 差 平 
方 和 最 小 .这 说 明 在 i 为 正 态 的 情况 下 , 非 线 性 回归 模型 中 参数 9 的 最 小 二 乘 估计 就 
是 参数 9 的 最 大 似 然 估计 . 


9.2.5 实际 中 的 考虑 


回归 方法 的 应 用 领域 非常 广泛 ， 从 工程 到 社会 科学 领域 ， 无 不 涉及 . 但 是 应 用 时 需要 小 
心 。 这 里 我 们 讨论 一 些 很 重要 的 需要 牢记 的 问题 , 忽略 了 这 些 事 项 ， 将 无 法 通过 回归 分 
析 得 到 可 靠 的 结论 . 


(a) 异 方差 性 ， 在 涉及 正 态 误差 的 线性 回归 模型 中 , 最 小 二 乘 估计 要 求 模型 中 误差 项 ， 
也 即 噪声 项 Wili = 1,… ,nn) 的 方差 相同 .但 是 , 在 现实 中 , 不 同 数据 对 的 Wi 的 方差 可 
能 有 很 大 差别 ， 比 如 , Wi 的 方差 可 能 受到 zi 的 严重 影响 (更 具体 一 些 , 假设 zi 是 年 收 
入 且 如 是 年 消费 .很 自然 能 够 预期 富 人 消费 的 方差 远大 于 穷人 消费 的 方差 )， 在 这 种 情 
况 下 , 一 些 方差 较 大 的 噪声 项 将 对 参数 估计 造成 不 恰当 的 影响 . 一 种 合适 的 补救 办 法 是 
使 用 加 权 最 小 二 乘 准则 =10ilyi 一 名 一 外 下 ， 其 中 对 于 Wi 的 方差 较 大 的 权重 oi 


就 小 一 些 . 


(b) 非 线 性 . 很 多 时 候 ， 变 量 x 的 取 值 可 以 影响 变量 y 的 取 值 , 但 是 这 种 影响 可 能 是 
非 线性 的 ， 之 前 也 讨论 过 ， 选 择 合适 的 hb 基于 数据 对 hz, 如) 的 回归 模型 可 能 更 合 


适 . 




































































(c) 多 重 共 线 性 ， 假 设 现在 用 两 个 解释 变量 x 和 z 来 建 模 预测 另 一 个 变量 yx 如 果 x 
和 2 之 间 本 映 就 有 很 强 的 关系 , 那么 估计 的 过 程 可 外 A 
自 对 模型 的 影响 . 一 个 极端 的 例子 是 ， 假 设 y= 2 二 1 是 真实 的 关系 ， z 二 27 总 是 
成 立 的 . 那么 模型 ! = :二 1 也 是 正确 的 ， 但 是 开 不 存在 一 种 计算 方法 分 失 贡 不 衣 变量 
X 和 z 在 建立 模型 时 对 y 的 贡献 . 


(d) 过 度 拟 合 . 用 大 量 的 解释 变量 和 相应 的 参数 来 建立 多 元 回归 , 其 拟 合 效果 是 良好 
的 ， 但 这 种 建立 模型 的 方法 并 非 有 利 , 也 有 可 能 是 没有 用 的 . 举例 来 说 ， 假 设 一 个 线性 
模型 是 正确 的 , 但 是 我 们 却 用 9 次 多 项 式 来 拟 合 10 个 数据 ， 模 型 的 数据 拟 合 9 
(0 \ 对 的 ， 一 个 重要 的 原则 是 , 数据 点 的 数量 应 该 是 待 佑 参数 个 数 的 5 倍 ， 
子 是 10 倍 . 


(e) 因果 关系 .不 要 把 两 个 变量 x 和 了 之 间 的 线性 关系 错误 理解 成 因 末 关系 . 一 个 非 
常 好 的 拟 合 可 能 是 因为 变量 x 是 导致 y 的 原因 , 也 有 可 能 y 是 导致 x 的 原因 . 或 
者 ， 有 一 些 外 在 的 因素 , 用 变量 z 来 刻画 ， 以 相同 的 方式 影响 着 x 和 yx 一 个 具体 的 
例子 是 zi 是 第 一 个 出 生 的 孩子 的 财富 , yi 是 同一 个 家 庭 中 第 二 个 出 生 的 孩子 的 财富 . 
粗略 地 预计 刀 会 随 着 zi 的 增加 而 线性 增长 , 但 是 这 应 该 归功 于 共同 家 庭 和 背景 的 影 
啊 , 而 不 是 两 个 孩子 之 间 的 因果 关系 . 
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9.3 简单 假设 检验 


本 节 将 再 次 讨论 如 何 从 两 个 假设 中 进行 选择 ， 与 8. 2 节 贝 叶 斯 公式 表达 不 同 ， 这 里 没有 
先 验 概率 的 假设 . 可 以 将 此 看 作 9 只 有 两 个 可 能 取 值 的 推断 问题 ， 但 为 保持 一 致 , 需要 
抛弃 8 的 记号 ， 而 用 Ho 和 妃 代表 两 个 假设 . 在 传统 的 统计 语言 中 , Ho 被 称 作 原 候 
设 , Hi 被 称 作 备 择 假 设 . 这 个 假设 检验 问题 称 为 简单 假设 检验 问题 . 这 说 明 Ho 的 角色 
是 默认 的 模型 ,根据 得 到 的 数据 来 决定 是 支持 还 拒绝 Ho 


观测 I 随机 变量 X = ( 训 ,… ,Xn) 的 分 布依 赖 于 假设 ， 记 号 PIX & 44; Hj) 表示 当 假 设 

Hj 成 立时 了 属于 4 的 概率 . 注意 与 经 典 推断 内 容 一 致 ， 不 存在 条 件 概 率 , 因为 真实 的 
假设 并 没有 被 当 作 随 机 变量 对 答 类 似 地 ， 用 Pxtz Hj) 或 fx(z; Hj) 分 别 表示 向 量 了 
在 假设 瑟 下 的 分 布 列 或 概率 密度 函数 , 我 们 希望 找到 一 个 决策 准则 将 观测 值 x 映射 
到 其 中 一 个 假设 上 去 ( 见 图 9. 7). 














决策 规则 g[ 一 一 





图 9.7 简单 假设 检验 的 经 典 推断 框架 


任何 一 个 决策 准则 都 可 以 用 样本 空间 的 一 个 分 划 来 表达 . 将 观测 向 量 六 = (X1,… ,六 
所 有 可 能 取 值 的 集合 划分 为 两 个 部 分 : 集合 R 称 为 拒绝 域 ， 以 及 它 的 补 集 R"， 称 为 
接受 域 . 当 观 测 数据 六 = (X1,… ,六 n) 落 在 拒绝 域 R 中 ， 假 设 Ho 被 拒绝 (声称 男 
是 错误 的 )， 否 则 就 被 接受 ， 见 图 9. 8， 因 此 , 决策 准则 的 选择 等 价 于 拒绝 域 的 选择 . 


观察 值 z 的 空间 










接受 域 R“, 接受 本 





拒绝 域 R, 拒绝 五 





图 9.8 简单 假设 检验 决策 准则 的 结构 . 它 将 所 有 可 能 的 观测 划分 为 集合 R (拒绝 
域 ) 和 它 的 补 集 R* (接受 域 ). 如 果 观 测 的 实际 值 落 在 拒绝 域 中 ， 原 假设 被 拒绝 


对 于 一 个 选 定 的 拒绝 域 R 有 两 种 可 能 的 错误 . 
(a) 拒绝 Ho 而 实际 上 Ho 是 正确 的 .这 是 第 一 类 错误 , 所 谓 的 错 拒 ， 发 生 的 概率 是 
alR) = P(X € R: Ho). 
(b) 接受 Ho 而 事实 上 Ho 是 错误 的 .这 是 第 二 类 错误 , 所 谓 的 受 假 ， 发 生 的 概率 是 
B(R) = P(X ¢ R; Hi). 
为 构造 拒绝 域 的 形式 , 将 其 和 贝 叶 斯 假设 检验 做 类 比 . 在 贝 叶 斯 假设 检验 中 , 两 个 假设 为 
9= 名 和 9= 色 , 先 验 概率 分 别 是 Pel 名 ) 和 Pel91). 于 是 ,对 于 固定 的 观测 值 x 利用 
最 大 后 验 概率 准则 让 犯错 的 总 概率 达到 最 小 . 按 这 个 规则 , 如 果 
pel)pxelT|0) < pelt )pxlel7|0), 


0 是 真 的 (假设 了 是 离散 的 ). 8 这 条 准则 也 可 以 这 样 改写 ;定义 似 然 比 
(TZ) 大 


8 在 这 一 段 我 们 用 到 条 件 概 率 的 概念 因为 要 处 理 贝 叶 斯 间 题 . 

































































L(z) = pxlel7|0) ) 
| pxlelz|0) 
并 称 日 = 抽 是 真 的 , 如 果 观 测 向 量 了 的 实现 值 x 满足 
L(7) >&, 
其 中 临界 值 & 为 
. _ pelt) 
- pel91) 
如 果 了 是 连续 的 ， 其 分 析 方 法 是 一 样 的 , 只 是 似 然 比 定义 为 概率 密度 函数 的 比值 : 
ra = folly) 
~ fxlel7T|) 


根据 之 前 最 大 后 验 概 率 准则 的 形式 ， 考 虑 如 下 形式 的 拒绝 域 
R= {z|L(z) > €}, 


其 中 似 然 比 L(7) 的 定义 和 贝 叶 斯 情形 类 似 : 9 





























9 注意 ， 我 们 用 Z(9 表示 基于 随机 观测 了 的 观测 值 x 的 似 然 比 的 值 ， 另 一 方面 ， 最 好 在 做 实验 之 前 将 似 然 比 看 
作 随 机 变量 ， 观 测 了 的 函数 ， 记 为 ZL(D. ZA(D 的 概率 分 布依 赖 于 哪个 假设 是 真 的 . 












































Llz) 一 px (lz; H1) Llzr) fx(z; Hi) 


px [Zz; Ho) 或 由 FT: Ho) 


现在 的 情况 下 , Ho 和 Hi 不 再 具有 先 验 概率 , 拒绝 域 中 的 常数 & 可 以 自由 地 根据 各 种 
考虑 确定 . 特殊 情况 《= 上 | 正好 对 应 了 最 大 似 然 准则 . 
例 9.10 现在 想 检 验 一 个 六 面 的 骨 子 是 否 均 匀 ， 构 造 了 关于 六 个 面 出 现 的 概率 的 两 个 


假设 : 








五 o( 均 匀 的 藤子 ) : px(x; Ho) = z=1,...,6 


1， 车 z = 了 2 
Hi( 不 均匀 的 散 子 ): px(x;Hi})= ] 
5 We 一 二 沪 58 
这 个 骨 子 一 次 投 皂 x 的 似 然 比 是 
1/4 3 
< 一 1 
1/6 3 
18 3 
so 一 条 间 省 阶 
1/6 由 者 L 人 bE ? 





由 于 似 然 比 只 有 两 个 单独 的 取 值 , 临界 值 & 所 对 应 的 拒绝 域 有 三 种 不 同 的 情况 : 


¢<7 对 所 有 的 x 拒绝 Ho; 
i 若 ze {3,4,5,6}, 接受 Bo; 若 zx e& {1,2), 拒绝 到 ; 
3 <&: 对 所 有 的 :接受 所 


直观 上 看 ， 茄 投 措 结 果 是 1 或 2 则 倾向 于 接受 三 而 拒绝 Ho， 男 一 方面 , 如 果 将 临界 值 
选 得 太 高 > 3/23) 就 永远 不 会 拒绝 Hio. 事实 上 对 于 般 子 的 一 次 投掷 ， 检 验 只 有 当 
3/4<& <3/2 时 才 有 意义 , 因为 《 取 其 他 值 的 时 候 ， 决 策 本 身 并 不 依赖 于 观测 . 


10 0 0 特别 地 ， 错 误 拒绝 的 概率 P( 拒 绝 Ht; Ho 


3 
1 者 é < 4 
1 3 3 
ER P(X & 141,2}; Ho) = 3, 和 站 志和 和 7 
3 
0， 者 Ee 二 
2 
错误 接受 的 概率 P( 接 受 Ho; Ho ) 为 
3 
0， 者 < 机 
1 3 3 
Bi = P(X € {3,4,5,6}; Hi) = 3 有 了 
hn 潜 二 翅 


注意 , 在 前 面 的 例子 中 的 选择 使 得 两 种 错误 的 概率 之 间 有 此 消 彼 长 的 关系 . 事实 上 ， 
当 《 增 大 ， 拒 绝 域 变 小 ， 因 此 , 错误 拒绝 的 概率 a( 局 减 小 而 错误 接受 的 概率 5(R) 

增加 ( 见 图 9. 9). 由 于 这 种 平衡 的 存在 ， 没 有 一 种 简单 最 优 的 方法 来 选择 临界 值 . 下 面 介 
绍 一 种 最 受 欢迎 的 方法 . 











错误 接受 概率 


错误 接受 概率 







临界 值 
-天 的 方向 






1 错误 拒绝 概率 
图 9.9 似 然 比 检验 中 的 犯错 概率 ， 当 临界 值 。 增加 ， 拒 绝 域 变 小 ， 因 此 , 错误 拒绝 
的 概率 a 减 小 而 错误 接受 的 概率 5 增加 . 当 a 对 于 的 依赖 连续 严格 单调 下 降 ， 
对 于 给 定 的 a, 只 有 唯一 的 《 与 之 对 应 ( 见 左 图 ). 但 是 a 对 于 《 的 依赖 也 可 能 是 不 
连续 的 , 比如 似 然 比 Ziz) 只 有 有 限 个 不 同 的 取 值 ( 见 右 图 ) 

似 然 比 检验 


。 首先 确定 错误 拒绝 的 概率 a 的 目标 值 . 





。 选 择 & 的 值 使 得 错误 拒绝 的 概率 为 a: 
P(L(X)> 6 Ho) =Q. 
。 观 测 了 的 取 值 % 若 Lz) >& 则 拒绝 Hi 


根据 错误 拒绝 的 不 愉快 程度 , a 的 典型 选择 是 =01a=005 或 a = 0.01， 注意 在 应 
用 似 然 比 检验 时 需要 下 面 的 条 件 . 


(a) 对 于 给 定 的 观测 值 % 我 们 必须 能 够 计算 Llz), 这 样 才 能 与 临界 值 & 作 比 较 . 所 
幸 在 给 定 分 布 列 或 概率 密度 函数 的 大 部 分 情况 下 都 可 以 做 到 . 

(b) 必须 有 Ll7)( 或 相关 随机 变量 如 二 LlX) ) 分 布 的 表达 式 或 者 可 以 通过 近似 分 析 计 
算 和 模拟 得 到 . 因为 给 定 错误 拒绝 概率 a， 需 要 通过 它 来 确定 相应 的 临界 值 &. 

例 9.11 一 台 监 视 器 周期 性 地 检查 茶 个 特定 区 域 ， 并 记录 下 信和 号, X = W 为 没有 入 侵 


者 (假设 Bo) ,X=1+W 为 存在 入 侵 者 (假设  ). 假设 VF 是 零 均值 、 已 知 方差 为 v 
的 正 态 随机 变量 ， 由 于 


1 r? , 1 (rz—1) 
fxlz; Ho) = — exp 4——?, fx{lz; Hi) = 一 一 ep 4 一 一 ， 
) 27 ) 


V2nv V2nv 





























似 然 比 为 
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给 定 临 界 值 。， 如 果 ZIz) > &， 似 然 比 检验 拒绝 Ho 或 者 等 价 地 , 经 过 直接 计算 ， 若 


it | 一 


zz>zylne+ 
则 拒绝 Ho. 因此 , 拒绝 域 的 形式 为 
R= {sls >), 
其 中 7 为 某 个 常数 ， 称 为 临界 值 .Y 与 《 的 关系 为 
Y=v Iné+s; 
见 图 9. 10. 当 确 定 错误 拒绝 的 概率 a 的 目标 值 以 后 , 可 通过 关系 
a=P(X>7:H0)=P(W > 7”) 


和 正 态 分 布 表 来 找 7 比如 ， 若 a = 0025， 则 7 1.96VV. 同样 地 ， 还 可 以 用 正太 分布 
表 计 算 错误 接受 的 概率 


B=P(X <yH)=P(1+W<Y)=PW<Y -1). 


有 (人 Be : fx(E:H) 





接受 域 接受 域 
图 9. 10 例 9. 11 中 的 拒绝 域 和 接受 域 , 以 及 相应 错误 拒绝 和 错误 接受 的 概率 
当 L(z) 是 连续 随机 变量 ， 就 像 之 前 的 例子 ， 概 率 P(L(X) > &; Ho) 随 着 《 的 增长 从 1 
到 0 连续 移动 . 因而 可 以 找到 的 一 个 取 值 满足 PLLCX) > & 1) = a 但 若 L(7) 是 离散 
的 随机 变量 ， 则 未 必 能 找到 恰好 满足 PIL(X) > & Ho) =a 的 《的 取 值 ( 见 例 9.10). 在 
这 种 情况 下 一 般 有 几 种 选择 . 
(a) 寻找 使 等 式 近似 成 立 的 取 值 
(bp) 选择 满足 PLL(X) > & 邱 ) <a 的 的 最 小 取 值 
(c) 利用 外 来 的 随机 性 在 两 个 候选 临界 值 中 作 选 择 . 这 种 检验 方法 称 为 “随机 化 似 然 比 
检验 ”. 这 种 方法 在 理论 研究 上 有 影响 . 但 是 由 于 它 在 实际 中 并 不 十 分 重要 ， 本 书 对 此 
不 作 深入 讨论 


通过 与 贝 叶 斯 推 类 的 类 比 ， 我 们 推动 了 似 然 比 检验 的 应 用 . 但 现在 要 提出 一 个 更 强 的 结 
论 : 在 给 定 的 错误 拒绝 概率 之 下 , 似 然 比 检验 使 得 错误 接受 的 概率 达到 最 小 . 


内 曼 - 皮尔 逊 引 理 
考虑 在 似 然 比 检验 中 一 个 确定 的 《， 从 而 有 犯错 概率 
P(L(X) > 各 夯 ) =a, P(L(X) < 各 本) = 有 
假设 还 有 其 他 检验 ， 拒 绝 域 为 R 使 得 错误 拒绝 的 概率 一 样 或 更 小 : 
P(X E R:Ho)<a. 























则 有 
P(X ¢ R: Hi)>8, 


当 P(X € R; 0) < a 成 立时 ， 严 格 不 等 式 P(X RR; 卫 ) > 8 成 立 





为 证 明 内 曼 -皮尔 逊 引 理 ， 考 虑 一 个 关于 假设 的 贝 叶 斯 决策 问题 , 其 中 Ho 和 三 的 先 
验 概率 满足 


pelbo) ， 
pelf) 


妈 





é , l 
pelt) 一 一 7) pelQ1) 一 


如 本 节 开 始 所 讨论 , 利用 最 大 后 验 概率 准则 得 到 的 门限 值 为 &, 这 与 利用 似 然 比 检验 准 
则 得 到 的 结论 是 一 样 的 ， 由 最 大 后 验 概率 准则 知 , 犯错 的 概率 为 


83, 








SS 
“过 一 - 5 
MAP = Te 1+e 


2 2 节 知 它 小 于 或 等 于 任何 其 他 贝 叶 斯 决策 准则 的 犯错 概率 . 这 说 明 任 选 拒绝 域 R 都 


EMAP = P(X E R: Ho) 十 P(X ¢ R: Hi). 
te 十 
比较 前 面 两 个 关系 式 得 ， 若 P(X € R; H0) < a 则 必须 有 P( 汪 天 天 古 ) 二 3; 若 
P(X € R:;Ho) <a， 则 必须 有 PlX ¢ R:Hi)>B. 这 正 是 内 曼 -皮尔 逊 引 理 的 结论 . 


- 皮尔 逊 引 理 可 以 用 画图 的 方式 来 解释 ， 见 图 9. 11. 下 面 将 用 几 个 例子 来 说 明 这 
一 引 理 . 














错误 接受 概率 







问 量 (a(R), 8( 有 R)) 之 集合 e 


错误 拒绝 概率 


图 9. 11 内 曼 - 皮 尔 逊 引 理 的 解释 . 考虑 所 有 错误 概率 数 对 af,2304)) 的 集合 5, 当 
及 取 遍 所 有 可 能 的 拒绝 域 \( 样 本 空间 的 子 集 ).E 的 有 效 边界 是 这 样 的 向 量 (ef( 局 ， 3()) 
的 集合 ;不 存在 (la, 5) EE 使 得 a 三 al 忆 和 且 5<B(R) 或 者 oa<alR) 有 生 5< B35(BR). 
内 曼 - 皮尔 逊 引 理 说 的 是 似 然 比 检验 中 所 有 的 (af 局 ,30)) 都 在 有 效 边界 上 


例 9. 12 接着 考虑 例 9.10， 投 折 贷 子 一 次 来 检验 它 是 否 均 匀 . et 
(al( 且 ,5( 局 ) 的 集合 5, 其 中 R 取 遍 所 有 可 能 的 拒绝 域 (样本 空间 t1,… ,6} 的 所 有 子 
集 ). 图 9. 12 中 画 出 了 集合 E. 可 以 看 出 似 然 比 检验 中 的 犯错 家 (1 0)5.(173; 172) 
和 (0, 1) 具有 内 曼 - 皮 尔 偿 引 理 给 出 的 性 质 (比如 落 在 有 效 边 界 上 , 见 图 9. 11 中 的 术语 ). 
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图 9. 12 Se oe 12 中 所 有 错误 概率 数 对 Ql 妃 , 51R)) 的 集合 5, 其 
中 取 遍 观测 空间 { } 的 所 有 子 集 . (1 0), (1/3, 1/2) 和 (0, 1) 是 似 然 比 检验 


中 的 犯错 概率 数 对 


例 9. 13 (不同 拒绝 域 的 比较 )” 设 观测 为 XX 和 Xs, 它们 是 独立 同 分 布 的 单位 方差 正 
态 随机 变量 . 在 Ho 的 假设 下 它们 的 共同 均值 是 0, 而 在 Hi 的 假设 下 它们 的 共同 均值 是 
2. 设 错误 拒绝 的 概率 为 a = 0.05. 


首先 根据 似 然 比 检验 推导 公式 ， 然 后 计算 5 的 值 . 似 然 比 的 形式 为 


F 于 D{ 一 ((z1 一 2)2 + (zo — 2)2)/2} 四 
(= 和 一 一 一 -expf2tzi+z) 一 4 
7 于 exp{ 一 (zt + 13)/2} exp{2(z1 + 72) 























比较 L(z) 和 临界 值 & 等 价 于 比较 71+z2 和 7 = (4+Dm5/2， 因 而 根据 似 然 比 检验 ， 
如 果 十 z2> 7 则 倾向 于 承认 HH， 这 确定 了 拒绝 域 的 形状 . 


为 确定 拒绝 域 的 具体 形式 ， 我 们 要 找到 7 使 得 错误 拒绝 的 概率 PIX1 二 2 > 1); Ho0) 为 
0.05， 注 意 ， 在 印 的 假设 下 ,2 = (Ci + X2)/V2 是 标准 正 态 随机 变量 ， 则 有 














005 -P(X 4X > xy HP 2 > 了 .PPpfz>- 
.Uy = 和信 1 十 A 信 2 全 了 40) 二 V3 ”a 0 |) 一 > 


根据 正 态 分 布 表 , 得 到 PL2 > 1.645) = 0.05, 因而 选择 
Y = 1.645. V2 = 2.33, 
得 到 拒绝 域 为 


下 三 {(z1, T2)|T1 十 IT2 > 2.33}. 


为 评价 这 个 检验 的 表现 ， 我 们 计算 错误 接受 的 概率 . 在 瑟 的 假设 下 , + 六 2 服从 均 
值 为 4 方差 为 2 的 正 态 分 布 , 因而 2 = (X1+X2 一 切 /V2 是 标准 正 态 随机 变量 ， 根据 正 态 
分 布 表 , 错误 接受 的 概率 是 
3(R) =P(X1 + Xz < 2.33; Hi1) 

色 + X2—4 .2.33— th) 

V2 ~ V2 
=P(Z < 一 1.18) 
=P(Z > 1.18) 
=1]— PlZ < 1.18) 
一 上 — 0.88 
=0.12. 


现在 来 比较 似 然 比 检验 在 不 同 的 拒绝 域 尼 下 的 表现 . 比如 考虑 一 个 形式 为 
R' = {(z1, T2)| max {71, T2} > C} 
的 拒绝 域 , 其 中 v 的 选择 使 得 错误 拒绝 的 概率 仍然 为 0. 05， 为 确定 。 的 值 ,有 


0.05 =P(max{X1, X2} > 6 Ho) 
=1 — Pl(max{Xi1, X2} < 6:; Ho) 
=1 — P(X1 < ¢; Ho)P(X2 < ¢: Ho) 
=1— (P(Z < ¢: Ho))’, 


其 中 Z 是 标准 正 态 的 .推出 Pl(Z < 6; Ho) = V1 一 0.05 s 0.975， 由 正 态 分 布 表 得 到 
6 一 1.96. 


现在 来 计算 相应 错误 接受 的 概率 记 2 是 标准 正 态 的 随机 变量 ， 于 是 


3(R') =P(max{Xi1, X2} < 1.96; 五 1 ) 
一 (PLX < 1.96: HI1))? 

(P(X1 一 2 二 一 0.04; 下? 
(P(Z < 一 0.04))2 
一 (0.49)2 

一 0.24. 





可 以 看 见 似 然 比 检验 的 错误 接受 的 概率 5() = 0.12, 比 另 一 种 检验 错误 接受 的 概率 
5( 尼 ) = 0.24 要 好 很 多 . 

例 9. 14( 一 个 离散 的 例子 ) “将 一 枚 硬币 独立 地 投 搓 25 次 . Bo， 一 次 投掷 正面 向 上 的 概 
率 为 名 = 1/2;， 刀 :一 次 投掷 正面 向 上 的 概率 为 由 = 2/3. 令 了 是 观测 到 正面 向 上 的 
次 数 ， 国 定 错误 拒绝 的 概率 为 0. 1, 似 然 比 检验 的 拒绝 域 是 什么 呢 ? 


当 X = 有 似 然 比 的 形式 为 


注意 L(A) 是 关于 k 的 单调 增 函 数 . 因此 , 拒绝 条 件 Zi > 等 价 于 大 > 小 其 中 
是 依赖 于 《 的 一 个 合适 的 常数 ， 所 以 似 然 比 检验 为 
若 六 > 1), 则 拒绝 Ho . 

为 保证 满足 错误 拒绝 概率 ， 需 要 找到 使 得 P(X > 1H0) < 0.1 成 立 的 最 小 7 值 ， 即 
= 
这 > ( 2 3 < 0.1. 

过 计算 不 同 7 对 应 取 值 找到 符合 要 求 的 Y = 
另 一 种 选择 ? 的 方法 用 到 中 心 极限 定理 的 近似 . 在 Ho 的 假设 下 ， 


和 一 noo 


Vv ntoll — 0) 
是 近似 标准 正 态 随机 变量 . 因而 有 
< 号 了 一 29.5 27 
和 =-P(z> 扩 -5). 


由 正 态 分 布 表 ， 看 (1.28) 一 0.9， 选择 1 满足 2 7/5) 一 5 一 1.28， 即 ”Y= 15.7. 由 于 不 是 整 
数 , 似 然 比 检验 在 XX > 15 ee Ho. 
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9.4 显著 性 检验 


在 实际 情况 中 ， 假 设 检验 问题 并 不 总 是 包含 两 个 特定 的 选择 , 因而 9. 3 节 的 方法 便 不 再 
适用 ， 本 节 的 目的 是 介绍 0 般 的 问题 , 并 提供 解决 办 法 .需要 提醒 的 是 , 我 们 提 
供 的 方法 既 不 是 唯一 的 也 不 是 普 适 的 , 判断 力 和 技巧 是 很 重要 的 组 成 部 分 . 

可 以 考虑 以 下 问题 来 开启 思维 . 

(i) 重复 独立 投掷 一 枚 硬币 .这 枚 硬币 是 均匀 的 吗 ? 

(ii) 重复 独立 投 找 一 个 骨 子 . 这 颗 骨 子 是 均匀 的 吗 ? 

(iii) 观测 到 一 列 独立 同 分 布 的 正 态 随机 变量 入,…… :Am 它们 是 标准 正 态 的 吗 ? 


将 得 了 同一 种 病 的 病人 分 成 两 组 ， 用 两 种 不 同 的 药 治疗 ,第 一 种 治疗 比 第 二 种 更 
效 吗 ? 


(v) 基于 历史 数据 (比如 去 年 的 )， 道 琼斯 指数 每 日 的 变化 服从 正 态 分 布 吗 ? 
(vi) 基于 两 个 随机 变量 XY 和 了 的 一 些 样本 (zi, yi 能 够 判断 两 个 随机 变量 是 否 独 立 
吗 ? 










































































在 上 述 所 有 情况 中 , 我 们 都 在 处 理 具有 不 确定 性 并 且 具 有 某 种 统计 规律 的 现象 . 在 上 述 
问题 中 , 我 们 提出 一 个 默认 的 假设 ， 称 为 原 假 设 , 记 作 Ho. 我 们 根据 观测 

六 二 (XX1,… An 来 决定 是 拒绝 还 是 接受 原 假 设 . 

为 避免 主要 思想 上 的 含糊 , 要 将 我 们 的 讨论 范围 限制 在 具有 下 列 特征 的 情况 中 . 


(a) 参数 模型 : 假设 观测 六 ,…* ,Xn 服从 完全 由 未 知 参数 9 (标量 或 向 量 ) 决定 的 联 
合 分 布 列 (离散 情形 ) 或 联合 概率 密度 函数 (连续 情形 )， 9 在 给 定 的 集合 M 中 取 值 . 


(b) 简单 原 假设 原 假设 断言 9 的 真 值 等 于 ,M 中 一 个 给 定 的 元 素 % . 

(c) 备 择 假设 : 备 择 假 设 ( 记 作 豆 ) 是 说 Ho 不 正确 , 即 9 了 名 . 

人 (G) ”~ (ii) 满 足 (a) ~ (c) .而 例 (iv>(vi) 的 原 假 设 并 不 简单 , 违背 了 条 件 
p). 















































9.4.1 一 般 方法 


我 们 首先 通过 一 个 具体 的 例子 来 介绍 一 般 的 方法 . 然后 对 不 同 的 步骤 进行 总 结 和 评论 . 
最 后 , 再 来 看 一 些 用 般 方 法 能 够 解决 的 例子 


例 9. 15 (我 的 硬币 均匀 吗 ? ) “投掷 一 枚 硬币 n = 1000 次 , 每 次 投掷 之 间 独 立 .9 是 未 
知 的 每 次 投掷 正面 朝 上 的 概率 . 参数 可 能 取 值 的 集合 是 w = L0, 1 原 假设 (硬币 是 均匀 























的 ) 是 9= 1/2， 备 择 假设 是 9 关 1/2 
观测 数据 是 序列 X1,… , Xm， 代表 7 次 投掷 硬币 的 结果 , 第 次 投掷 的 结果 为 正面 朝 


上 则 Xi 取 值 为 1， 否 则 Xi 取 值 为 0. 我 们 选择 > =A1 二 十 An 的 值 ， 即 观测 到 正 
面 朝 上 的 次 数 , 并 用 这 样 的 决 集 准 则 : 


, n 
二 DC 一 


车 >、 则 拒绝 印 ， 


其 中 《 是 待定 的 合适 的 临界 值 . 目前 为 止 我 们 已 经 确定 了 拒绝 域 R (拒绝 原 假设 的 数 
据 集 合 ) 的 形状 . 最 后 要 做 的 是 选择 临界 值 & 使 得 错误 拒绝 的 概率 等 于 给 定 的 值 a: 


P( 拒 绝 Ho:; Ho)=a. 

典型 的 a 是 一 个 很 小 的 数 ， 称 为 显著 水 平 , 这 个 例子 中 取 a = 0.05. 
到 目前 为 止 ， 我 们 只 是 提供 了 一 系列 直观 的 操作 法 . 确定 临界 值 《& 需要 一 些 概率 计算 . 
在 原 假设 下 , 随机 变量 9 服从 参数 为 n=1000 和 P=1/2 的 二 项 分 布 . 由 于 样本 量 很 
大 的 时 候 ， 可 利用 正 态 分 布 逼近 二 项 分 布 , 再 利用 正 态 分 布 表 可 得 到 临界 值 的 近似 选择 
5 三 31 假设 5 的 观测 值 为 s= 472， 则 有 

ls 一 500| = |472 — 500| = 28 < 31, 
因而 在 5% 显 著 水 平 下 不 拒绝 假设 Ho . 


在 上 例 的 最 后 ， 我 们 是 故意 说 “不 拒绝 ”而 非 “ 接 受 ” 的 . 我 们 没有 任何 确凿 的 证 据说 
9 等 于 1/2 而 不 是 0. 51. 我 们 只 能 说 5S 的 观测 值 没 有 提供 有 力 的 证 据 来 反对 假设 Ho 


现在 从 前 面 的 例子 中 总 结 归纳 得 到 一 种 一 般 的 方法 . 
显著 性 检验 的 方法 
基于 观测 六 1,… , 六"， 将 对 假设 “Ho: 9= 8” 做 统计 检验 . 
。 以 下 步骤 在 得 到 观测 数据 之 前 完成 


(a) 选择 统计 量 2 一 个 能 够 概括 观测 数据 的 随机 变量 .从 数学 的 角度 上 看 ， 
就 是 选择 函数 h: R" 一 及 使 得 统计 量 S = hlX1,… ,六 n). 


(b) 确定 拒绝 域 的 形状 : 拒绝 域 通常 由 5 的 取 值 组 成 的 一 个 集合 , 当 5 落 入 
这 个 集合 时 ， 就 拒绝 Hr. 在 确定 这 个 集合 的 时 候 , 还 涉及 一 个 未 定 的 常数 有 
这 个 常数 称 为 临界 值 . 

(c) 选择 显著 水 平 : 错误 拒绝 Ho 的 概率 a 


(d) 选择 临界 值 5, 使 得 错误 拒绝 的 概率 等 于 或 近似 等 于 a。 这 时 候 , 拒绝 域 
就 完全 决定 了 . 
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一 旦 得 到 XX,… ,Xn 的 观测 值 1,… zn: 
(i) 计算 统计 量 5 的 值 = h(z1,… ,zn) 
(ii) 著 s 落 在 拒绝 域 中 ， 拒 绝 假设 印 . 
下 面 对 上 述 方法 中 各 个 部 分 做 一 些 解释 和 评论 


(i) 没有 一 种 万 能 的 方法 来 选择 “正确 ”的 统计 量 $， 在 一 些 例子 中 , 比如 例 9. 15， 这 
种 选择 是 自然 的 并 且 能 从 数学 的 角度 证 明 其 优良 性 能 . 男 外 ， 我 们 还 可 以 将 似 然 比 的 概 
念 进 行 推广 ， 得 到 有 使 用 价值 的 S 这 将 在 本 节 后 一 部 分 } 讨 论 ， 最 后 ， 在 考虑 3 的 选 
me 要 的 原则 是 : 5 的 简洁 性 , 是 否 足 够 简单 从 而 能 够 进行 上 面 方法 中 步 
又 (d) 的 计算 . 


(ii) 不 拒绝 Ho 的 5 取 值 的 集合 一 般 是 包含 (在 Ho 的 假定 下 ) 5S 的 分 布 密度 峰值 的 
一 个 区 间 ( 见 图 9. 13). 当 样 本 量 很 大 的 时 候 ， 可 利用 中 心 极限 定理 . 由 于 正 态 分 布 密度 
有 对 称 点 , 可 取 关 于 S 的 均值 对 称 的 一 个 区 间作 为 接受 域 ， 类 似 地 , 例 9. 15 中 对 称 的 拒 
绝 域 是 根据 事实 在 Ho 下 5 的 分 布 (参数 为 1/2 的 二 项 分 布 ) 关 于 其 均值 对 称 而 建立 的 . 
其 他 例 了 中 ， 非 对 称 的 拒绝 域 可 能 更 加 合适 ， 比 如 在 例 9. 15 中 , 知事 先 我 们 能 够 确定 
4 二 1/2 那么 单 边 的 拒绝 域 是 自然 的 : 

















n 


SC——>t 
若 2”“ 则 拒绝 Ht. 


(iii) 一 般 错 误 拒 绝 的 概率 a 在 a=0.10 和 a =0.01 之 间 选 择 . 当然 人 们 都 希望 错 
误 拒绝 的 概率 尽 可 能 地 小 , 但 是 由 于 两 类 错误 概率 的 互相 消长 关系 , a 取 值 很 小 会 使 得 
拒绝 错误 假设 变 得 困难 , 相应 地 增加 了 错误 接受 的 概率 . 


(iv) 步骤 (d) 是 唯一 需要 概率 计算 的 地 方 . 它 需 要 知道 Lz)( 或 者 相关 随机 变量 如 

In LX) ) 在 假设 Ho 成 立时 的 分 布 ( 或 近似 分 布 )， 一 些 特殊 情况 中 , 可 以 是 直接 给 出 分 
布 或 者 经 过 简单 推导 就 可 以 得 到 分 布 . 然而 除了 相对 简单 的 情形 ， 一 般 很 难 找 出 5 的 
分 布 的 闭合 式 . 若 很 大 , 可 以 利用 中 心 极限 定理 求 出 近似 分 布 ， 但 是 ， 当 2 不 是 很 
大 的 时 候 , 就 很 难得 到 近似 分 布 . 这 种 想 要 得 到 易 处 理 的 表达 式 或 近似 公式 的 愿望 驱使 
我 们 寻找 更 加 实用 的 统计 量 5. 男 一 种 解决 困境 的 途径 是 利用 模拟 的 方式 估计 5 的 分 
布 , 例如 产生 大 量 独立 的 了 的 模拟 样本 ， 根 据 Ll7) 画 出 直方 图 或 估计 的 分 布 . 









































fs(s; Ho) 显著 水 平 





拒绝 域 


图 9. 13 显著 性 检验 基于 统计 量 5 在 原 假设 下 的 分 布 的 双边 和 单 边 拒绝 域 . 显著 水 
平 是 错误 拒绝 的 概率 , 也 就 是 在 Ho 成 立时 统计 量 5 落 在 拒绝 域 中 的 概率 


给 定 a 的 值 ， 如 果 假 设 Ho 被 拒绝 ， 我 们 就 说 Ho 在 显著 水 平 a 之 下 被 拒绝 ， 这 个 
说 法 需要 一 个 合理 的 解释 . 它 并 不 是 说 事件 “Ho 真实 ”的 概率 小 于 a 它 说 的 是 : 利用 
这 种 检验 方法 时 ，“ 错 误 拒绝 ”的 百分比 为 a 在 1% 的 显著 水 平 下 拒绝 一 个 假设 意味 着 
观测 数据 在 Ho 成 立 的 模型 中 显得 很 不 正常 ， 这 种 数据 只 会 以 1% 的 可 能 性 出 现 , 因而 
为 “Ho 不 真 ” 提 供 了 有 力 的 证 据 . 


很 多 时 候 ， 统 计 学 家 跳 过 上 述 方法 中 的 步骤 (c) 和 步骤 (d). 取而代之 ,他们 计算 5 的 
真实 值 s 并 汇报 相关 的 产值， 定义 如 下 : 


六 值 = min{fal|Ho 在 显著 水 平 a 之 下 被 拒绝 } 


等 价 地 ，py- 值 就 是 s 应 当 在 拒绝 与 不 拒绝 分 界 所 处 位 置 的 a 值 . 因此 举例 来 说 , 原 假 
设 在 5% 显 著 水 平 下 被 拒绝 当 且 仅 当 yy 值 小 于 0. 05. 


下 面 将 用 一 些 例子 来 解释 主要 思想 . 


例 9. 16( 正 态 分 布 随机 变量 的 均值 等 于 零 吗 ? ) 假 设 Xi 是 独立 正 态 随 机 变量 , 均值 为 
9， 方 差 叶 已 知 ， 考 虑 的 假设 检验 问题 是 : 












































Ho: 9=0, Hi: 04#0. 
一 个 合理 的 统计 量 是 样本 均值 (X11 二 … 十 Xn)/n 或 者 变换 系数 后 的 
og 有 1 十 … 十 Xn 
ov n 


拒绝 域 形状 的 自然 选择 是 拒绝 印 当 且 仅 当 |5| >&. 因为 在 名 为 真 的 假定 之 下 ，5 
服从 标准 正 态 分 布 ,5 相应 于 任意 a 的 取 值 可 以 很 容易 的 从 正 态 分 布 表 中 找到 . 比如 
a =0.05， 由 P(S < 1.96) = 0.975 可 知 , 检验 可 如 下 执行 : 


车 | 引 > 196 则 拒绝 印 ， 








或 者 等 价 地 ， 

若 | 了 十 … 十 Xn| > 1.96cYn 则 拒绝 于 . 
从 单 边 的 角度 来 考虑 ， 备 择 假设 变 为 _ 所 :0 > 0. 这 时 候 可 以 用 一 样 的 统计 量 S 但 是 
当 3> 时 拒绝 Ho , 其 中 & 根据 PlS > 6) 二 @ 来 取 值 . 同样，$ 服从 标准 正 态 分 








布 , 相应 于 任意 a 的 取 值 可 以 很 容易 的 从 正 态 分 布 表 中 找到 . 
最 后 ， 若 o? 未 知 ， 可 以 用 估计 来 代替 ， 如 








这 时 得 到 的 统计 量 服从 妇 分 布 (而 不 是 正 态 分 布 ) . 若 n 相对 较 小 , 此 时 应 该 使 用 女 分 
布 表 而 不 是 正 态 分 布 表 ( 参 见 9. 1 他 )， 


例 9. 17 讨 论 复合 型 原 假 设 Ho， 这 意味 着 它 不 是 由 单一 分 布 所 确定 的 . 
例 9. 17( 两 个 组 的 均值 相等 ? ) ”我 们 现在 想 检验 一 种 药物 在 治疗 两 个 人 数 不 同 的 小 
组 中 效果 是 否 相 同 . 分 别 从 两 组 中 抽取 样本 六 1… ,六 mw， 和 站,… ,Yns , 若 药物 治疗 对 
第 一 组 (或 第 二 组 ) 的 第 7 个 人 有 效 则 Xi=1( 或 下 = 了 ,否则 Xi=0( 或 = 站 .将 
每 个 Ai (或 歼 ) 看 作 伯 努 利 随 机 变量 , 未 知 均值 为 9x (或 %) ， 并 考虑 假设 

五 0 : Ox 一 从 -， Hi 。 Ox ty. 
需要 注意 的 是 有 很 多 对 (tx, 全 ) 都 满足 Ho, 因而 Ho 是 复合 型 假设 . 


两 组 的 样本 均值 为 














bx 一 的 一 个 合理 的 估计 量 是 Bx - BY. 一 个 可 接受 的 选择 是 拒绝 Ho 当 且 仅 当 

|ex 一 er| 站 
其 中 上 值 由 给 定 错误 拒绝 概率 a 所 确定 . 但 是 选择 合适 的 t 很 困难 , 因为 ex 一 By 
在 Ho 下 的 分 布 由 未 明确 的 参数 9x 和 名 决定 . 这 激发 了 另 一 种 统计 量 的 发 展 ， 我 们 
接 下 来 将 要 讨论 这 种 方法 . 


对 于 很 大 的 mm 和 nz, Bx 和 By 近似 正 态 且 相 互 独立 , 因而 Bx 一 By 也 是 近似 正 态 ， 
均值 为 gx 一 由 ， 方 差 是 

















gx(l—0x) (ll—) 


nl1 no 


var{Ox 一 Oy) = var(Ox ) 十 var(Oy) 一 


在 Ho 的 假设 下 , ex 一 By 的 均值 已 知 为 零 , 但 方差 未 知 ， 因 为 不 知道 9x 和 Wy 的 共 
同 取 值 ， 男 一 方面 , 在 Ho 的 假设 下 , 9x 和 上 的 共同 取 值 可 以 用 样本 均值 


De Ket De Yh 


niT no 


©= 
来 估计 ,方差 var(Bx 一 By) = var(Bx) 十 var(By) 可 以 近似 为 


2 ( 1 1 ) 3 人 
三 (1 一 十 一 8(1 二 8} 
nl 772 


且 (ex 一 9BY)/$ 近似 为 标准 正 态 随机 变量 . 因而 考虑 采取 下 列 方 式 完成 检验 


|(ex 一 Oy)| 


若 5 ““* 则 拒绝 H。 











选择 满足 了 l(t) 二 1 一 Q/2 的 5 其 中 于 是 标准 正 态 分 布 的 概率 分 布 函数 . 比如 
a = 0.05, 得 到 拒绝 成 形式 为 
et ) _ -| 


实际 中 , 问题 的 提 法 还 会 有 稍微 的 变化 . ?此 时 应 考虑 假设 


10 例 如 第 二 组 病人 的 效果 是 否 不 如 第 一 组 病人 的 效果 . 一 一 译 者 注 














五 0 : 卓文 = Oy, Hi = Ox > Oy. 


那么 相应 的 拒绝 域 就 是 单 边 的 , 形式 为 


| (Ox — By) . | 
一 > & > 
(sa 


其 中 临界 值 是 满足 下 (6) =1 一 a 的 &. 


上 一 个 例子 解释 了 复合 型 原 假设 的 一 类 问题 ， 为 确定 合适 的 临界 值 , 我 们 更 希望 能 找到 
一 个 统计 量 , 使 得 它 的 近似 分 布 相 对 于 原 假设 的 所 有 参数 值 都 一 样 , 就 像 例 9. 17 中 的 统 
计量 (ex By)/$ 那样 

9.4.2 广义 似 然 比 和 拟 合 优 度 检验 

我 们 讨论 的 最 后 一 个 课题 是 ; 检验 给 定 的 分 布 列 是 否 和 观测 数据 保持 一 致 . 这 是 一 个 很 
草 要 的 问题 ， 称 为 拟 合 优 度 检验 . 这 也 是 一 个 在 复合 备 择 假设 情况 下 显著 性 检验 的 一 和 
方法 . 


考虑 一 个 在 有 限 集合 {1,… ,mm} 上 取 值 的 随机 变量 ， 外 是 随机 变量 取 值 K 的 概率 . 因 
而 这 个 随机 变量 的 分 布 列 由 向 量 参数 9 = (4,… ,gmn) 刻画 . 考虑 假设 
































五 0 :站 三 二 天 
其 中 {多} 是 一 组 给 定 的 非 负 数 , 且 和 为 1. | 的 样 
本 , 令 MN a Re k 的 次 数 . 这 样 实际 观测 得 到 的 随机 变量 
A m), 观察 值 为 T= (M141,… ,nm). 注意 总 十 nS 











虫 立 地 投掷 一 颗 肯 子 ， 原 假设 Ho 是 : 人 般 子 是 均匀 的 . 这 时 铸 =1/6, =] 


这 种 概率 模型 有 很 多 实际 背景 ， 我 们 用 担 仍 子 这 种 易于 理解 的 例子 加 以 说 明 ， 过 局 
7 人 伏 
ve 是 2 次 投 撕 中 结果 为 £ 的 次 数 ， 注 意 意 备 择 假 设 硬是 复合 的 , 因为 亿 及 多 这 
对. 


下 面 介绍 的 方法 是 广义 似 然 比 检验 ， 它 包含 两 个 步骤 . 





(a) 通过 最 大 似 然 来 估计 模型 , 比如 选择 在 所 有 9 中 使 得 似 然 函 数 px (7;0) 达到 最 大 
的 参数 向 量 0 = (1 ,mn ). 


(b) 进行 似 然 比 检验 ， 具 体 地 说 , 比较 估计 模型 的 似 然 函 数 Px (5 和 Ho 下 的 Px(z: 扩 ) 
.更 具体 地 ， 计 算 广 义 似 然 比 








天 大 人; 0) 
px(z:0*) 


若 它 超过 临界 值 《 则 拒绝 Ho. 和 简单 假设 检验 中 一 样 , 我 们 选择 & 使 得 错误 拒绝 的 概 
率 ( 近 似 ) 等 于 给 定 的 显著 水 平 a 


从 本 质 上 说 ， 这 种 方法 提出 了 以 下 问题 ， 相 对 于 6 下 的 模型 ,是 否 存在 和 所 相符 的 
模型 对 观测 数据 有 更 好 的 解释 呢 ? 为 回答 这 个 问题 , 我们 比较 在 A 下 的 可 能 px (7:0) 
和 相应 于 估计 模型 的 最 大 可 能 px(z: 信 


现在 按 广 义 似 然 比 检 验方 法 解决 据 艇 子 中 的 检验 问题 . 第 一 步 , 求 似 然 函数 在 
to 的 集合 上 的 最 大 值 点 (最 大 似 然 估计 ). 观测 向 量 了 的 分 布 列 是 一 个 多 项 式 
(参见 第 2 章 习 题 27) , 似 然 函数 是 

px (z;g) 一 cg + nm, 


mm 


其 中 c 是 归 一 化 常数 . 在 求 最 大 值 点 时 候 ， 求 对 数 似 然 函数 的 最 大 值 点 会 相对 容易 , 其 


形式 








Inpxl7z;0) = lnct+nilnf t+ +nn 1 1+t+nmln(l oo — 0 1). 
此 处 利用 关系 式 抽 十 … 十 bm 三 1 消除 了 多 余 参 数 9m. 假设 使 似 然 函 数 达 到 最 大 的 癌 





量 6 的 每 一 个 分 量 都 是 正 的 , 那么 对 数 似 然 函 数 的 各 个 偏 导数 在 6 处 均 为 0， 利 用 这 
个 性 质 , 可 以 得 到 


nk Tim 


en et Ry 其 中 k=1,:.… ,mC—1. 


由 于 右边 的 项 等 于 nm/9m, 可 知 所 有 比值 ?k/ 缴 都 相等 ， 根 据 十 … 二 nm = 二 n 得 到 


可 以 看 出 即使 有 nx 为 零 ， 仍 能 得 到 正确 的 最 大 似 然 估 计 ， 相 应 的 让 也 为 零 . 
现在 计算 广义 似 然 比 , 得 到 如 下 的 广义 似 然 比 检验 




















11 这 里 运用 约定 0 中 = 二 1 和 0:ln0=0. 


px (zx:0) 加 I (nag/n)™ ee 
若 PX(7;0") A 




















则 拒绝 Ho ， 


其 中 《 是 临界 值 ， 在 检验 的 不 等 式 两 边 取 对 数 ， 检 验 变 为 


ee nln( 7 ) > lIné 
若 =} hk 
根据 要 求 的 显著 水 平 来 确定 常数 & 


PLS > lné€: H0) = a, 


则 拒绝 Ho . 








其 中 





| mm Nx 
字 圭 Ni ln i 
2 和 (六 ) 
因为 S$ 在 Ho 下 的 分 布 很 复杂 ， 要 求 出 精确 解 并 非 易 事 , 但 可 以 通过 模拟 解决 . 


所 幸 当 2 很 大 的 时 候 这 可 以 大 大 简化 ， 这 个 时 候 , 观测 频率 从 二 ng/n 在 Ho 下 以 很 
大 的 概率 与 外 接近 . 二 阶 泰勒 展 式 显示 统计 量 T/2 是 3 的 很 好 的 近似 ， 其 中 7 是 2 























多” > 0， 函 数 YIn(y/ 矿 ) 的 二 阶 泰勒 展 式 为 

“) 时 ,1(y—y) 
y= 

\ < y 

当 y/ Y ES L 时 成 立 . 因此 ， mm 


/Nk , ,le(NM—ng) 了 
Nr ln ( 立 ) [4 (NM =) 
一 1 








mm 


(Nk 一 ng )? 
二 ngr | 

进一步 地 ， 当 n 很 大 的 时 候 ， 在 Ho 假设 下 , 7 的 分 布 (25 的 分 布 ) 逼 近 “自由 度 为 
orl 的 X 分 布 ”. 3 此 分 布 的 分 布 函 数 可 以 在 表 中 查 到 (类 似 正 态 分 布 表 )， 因 此 , 可 
以 在 X 分布 表 中 找到 P(T > 7; Ho) 或 P(25 > 人 11) 的 近似 真 值 , 然后 根据 给 定 的 显 
著 水 平 a 来 确定 合适 的 临界 值 . 将 所 有 内 容 合 起 来 ， 对 于 较 大 的 x 有 下 面 的 检验 . 








13 自由 度 为 7 的 X2 分 布 定义 为 随机 变量 


















































的 分 布 ,其 中 21, ,ZZ1 是 服从 标准 正 态 分 布 (均值 为 零 ,方差 为 1) 的 随机 变量 . 可 以 从 直观 上 来 解释 为 什么 7 
近似 X ”分布 ， 当 于 一 cc, E/T 不 仅 收敛 到 优 同时 也 是 渐 近 正 态 的 ， 因 此 , 7 等 于 wm 个 零 均值 正 态 随机 变 
量 CE 一 了 2 伏 )/ VPR 全 的 和 .7 的 自由 度 为 m1 而 不 是 四 这 是 因为 这 1 Nk 一刀 从 而 m 个 随机 变量 是 相 


时 










































































x 丛 验 


。 利 用 统计 量 


5S= 2 Ni ln (其) 

(或 者 相关 的 统计 量 7 ) 以 及 拒绝 域 

{25 > 7} 

进行 检验 (或 相应 的 {> 7)). 

临界 值 & 依照 自由 度 为 六 1 的 Xx 分布 的 概率 分 布 函数 表 确 定 , 满足 
P(2S > 7; Ho) = mw 

其 中 a 是 给 定 的 显著 水 平 . 


例 9. 18( 我 的 骨 子 均匀 吗 ? ) “独立 地 投掷 一 颗 仍 子 共 600 次 , 得 到 数字 1，2，3，4， 
5，6 出 现 的 次 数 分 别 为 


ml 一 92，72 = 120, n3 = 88, n4 = 98,s = 95, ne = 107. 


现在 用 基于 7 统计 量 的 X 检验 来 检验 原 假设 Ho( 角 子 是 均匀 的 ), 显著 水 平 为 
a = 0.05. 根据 自由 度 为 5 的 X” 分布 表 得 到 满足 PIT>7;11) = 0.05 的 Y = 111 


由 针 二 … 二 多 二 1/6, n= 600,nti 二 100 以 及 给 定 的 n:， 了 7 统计 量 的 值 是 





3 (nk —n9) (92 一 100)2 (120—100)* (88— 100)? 


no 100 100 100 
(98 一 100)” (95 一 100)2 (107— 100)? 
100 100 100 


k=1 


=6.86. 
因为 = 6.86 < 11.1， 无 法 拒绝 仍 子 是 均匀 的 假设 ， 如 果 用 的 是 5 统计 量 ， 得 到 的 是 


2S=6. 86, 同样 小 于 临界 值 7 = 11.1， 如 果 显 著 水 平 a = 0.25， 相 应 的 7 值 为 6. 63， 这 
时 由 于 T= 6.86 > 6.63 和 25 = 6.86 > 6.63， 我 们 将 拒绝 明 子 是 均匀 的 假设 . 


9.5 小 结 和 讨论 


经 典 推断 方法 和 贝 叶 斯 方法 不 同 ， 它 将 8 看 作 未 知 的 常数 . 经 典 参数 估计 的 目标 是 在 
9 所 有 可 能 的 取 值 中 找 出 具有 良好 性 质 (如 对 一 切 ,偏差 很 小 , 或 具有 满意 的 置信 区 间 ) 
的 估计 量 , 我 们 首先 关注 与 ( 贝 叶 斯 ) 最 大 后 验 概率 方法 密切 相关 的 最 大 似 然 估 计 , 它 先 
择 9 的 估计 使 得 给 定 x 的 似 然 函 数 最 大 . 这 种 估计 方法 用 途 很 广 并 且 有 一 些 很 好 的 性 
质 , 特别 是 当 观 测 数目 很 大 的 时 候 . 接着 我 们 讨论 了 特殊 但 是 在 实际 情况 中 很 重要 的 佑 
计 未 知 均值 并 建立 置信 区 间 . 本 章 中 很 多 方法 都 依赖 于 中 心 极限 定理 .最 后 讨论 的 是 线 
性 回归 方法 , 它 主 要 是 在 最 小 二 乘 意义 下 找到 与 观测 相 匹 配 的 线性 模型 . 虽然 这 种 方法 
Re li 但 是 在 茶 些 时 候 仍 和 最 大 似 然 估计 以 及 贝 叶 斯 最 小 线性 均 方 估 
i 密切 的 关系 . 


经 典 假设 检验 方法 的 目标 是 小 的 犯错 概率 以 及 简单 方便 的 计算 . 我 们 首先 研究 的 是 当 观 
测 落 在 拒绝 域 中 时 拒绝 原 假设 的 检验 方法 . 似 然 比 检验 是 简单 假设 检验 问题 的 基本 方 
法 , 内 曼 - 皮尔 逊 引 理 给 其 很 强 的 理论 支持 . 我 们 还 讨论 了 显著 性 检验 ， 其 中 一 个 (或 
两 个 ) 假设 是 复杂 的 假设 . 主要 方法 包括 适当 选择 提取 观测 信息 的 统计 量 以 及 拒绝 域 , 使 
得 错误 拒绝 的 概率 达到 希望 的 显著 性 水 平 . 


在 对 统计 的 简单 介绍 中 ， 我 们 则 在 阐述 核心 概念 和 最 常用 的 方法 , 但 这 还 远 远 不 够 ， 
是 涉及 这 个 内 容 丰 富 的 学 科 的 一 点 皮毛 而 已 . 很 多 重要 的 话题 我 们 都 没有 讨论 ， ee 
间 变 化 的 环境 中 的 估计 (时 间 序 列 分 析 和 过 滤 ), 非 参数 估计 (如 基于 经 验 数据 来 估计 未 
知 的 概率 密度 函数 ) ， 线 性 和 非 线性 回归 的 后 多 寺 发 展 ( 如 检验 回忆 局 肝 的 假 届 是 否 正 
2 统计 实验 的 设计 方法 ， 统 计 研 究 结 论 的 证 实 方法 ， 计 算 方 法 ， 但 是 , 我 们 希 
能 够 通过 本 章 的 知识 激 起 读者 对 这 门 学 科 的 兴 各 着 光 梳 念 树 训 有 一 些 基本 第 愉 识 








































































































习题 
9.1 节 经 典 参数 估计 


1， 爱 丽 丝 将 自己 每 周 做 作业 的 时 间 看 作 随 机 变量 , 服从 未 知 参数 为 的 指数 分 布 ， 不 
同 周 做 作业 的 时 间 是 相互 独立 的 . 本 学 期 的 前 五 周 她 做 作业 的 时 间 分 别 为 10、14、18、 
8、20 小 时 , 那么 9 的 最 大 似 然 估计 是 多 少 ? 


2， 考 虑 一 列 独立 的 硬币 投掷 试验 ,9 是 每 次 正面 向 上 的 概率 . 


(a) 固定 hW 是 直到 出 现 第 次 正面 向 上 时 投掷 的 总 次 数 . 试 找 出 基于 W 的 9 的 最 
大 似 然 估计 . 


(b) 固定 ns 下 是 2 次 投 撕 中 正面 向 上 的 次 数 . 试 找 出 基于 X 的 8 的 最 大 似 然 估 计 . 


3. 抽样 与 和 的 估计 .一 个 盒子 中 有 个 球 : 让 个 白色 和 上 大 一 六 个 红色 的 . 假设 k 
和 天 均 已 知 .每 个 白 球 上 都 有 一 非 零 数 字 ， 而 红 球 上 的 数字 都 是 零 . 我 们 想 要 估计 球 上 
所 有 数字 的 和 ， 但 是 由 于 k 很 大 , 于 是 用 抽样 的 方法 来 估计 . 此 问题 的 目的 是 量化 从 白 
球 ( 非 零 数 字 ) 中 抽样 以 及 挖掘 对 的 认识 的 好 处 . 特别 地 , 将 比较 抽 个 球 时 的 误差 
方差 和 抽 少 一 些 的 w 个 白 球 时 的 误差 方差 . 


(a) 假设 独立 地 有 放 回 地 抽 球 ， 其 分 布 为 均匀 分 布 . 记 Xi 为 第 7 个 球 上 的 数字 , 
为 第 7 个 白 球 上 的 数字 .固定 nn 和 有 记 

















n > mm 


~ 2 
5 232 厅 : 宇 万 和 5 i 
其 中 六 是 开始 的 n 个 球 中 白 球 的 (随机 的 ) 个 数 . 说 明 5、5 和 5 是 所 有 球 上 数字 和 
的 无 偏 估 计 . 
(b) 计算 5 和 5 的 方差 , 并 说 明 为 了 使 它们 近似 相等 ，wm 必须 满足 

np 


7 写 


人 十 和 二 一 站 )” 


其 中 P= Efk, 7 = E[YY]/var(Yi) 指出 当 m =n 时 有 





varl S ) p 
var($) p+r(l—p) 


(c) 计算 5 的 方差 , 并 说 明 对 于 较 大 的 n 有 


varf5) 加 1 








var($) p+r(l—p) 


4 混合 模型 .随机 变量 了 的 概率 密度 函数 由 w 个 部 分 组 成 


fx(7) = 》 pjfy, (7), 
j=1 


省 


mm 


D_D=1, pj > 0,j7=1,.…,m. 


J=1 


因此 XY 可 以 看 作 由 两 步 过 程 产生 的 : 首先 随机 地 以 概率 Pi 抽取 ,然后 再 从 第 J 
a fy dee a 说 .假设 好 是 正 态 的 ， 均 值 入， 方差 


Wj. 此 外 还 假设 六 1 是 fxl7) 的 独立 同 分 布 样本 . 
(a) 写 出 似 然 函数 和 对 数 似 然 函数 . 


(b) 考虑 zzF2 和 1 的 情形 , 假设 Ai、H、ci 和 02 是 已 知 的 . 试 找 出 庆生 的 
最 大 似 然 估计 . 


(c) 考虑 mr2 和 m1 的 情形 , 假设 P、P2、91 和 02 是 已 知 的 . 试 找 出 Wi 和 着 的 
最 大 似 然 估 计 . 


(d) 考虑 m 二 2 和 了 的 一 般 情况 ， 假 设 所 有 的 参数 都 未 知 . 说 明 让 ma = zl 以 及 5 
A 似 然 函 数 可 以 任意 大 . 注意 : 这 个 例子 说 明 最 大 似 然 方法 是 有 问题 





5， 设 不 稳定 的 粒子 从 茶 个 源 发 出 , 并 在 服从 参数 9 的 指数 分 布 的 距离 了 漂 灭 .用 一 种 


0 7 次 潭 灭 发 生 在 区 间 [ml mal 假设 这 些 事件 记录 的 距离 为 
= (XI] Xn). 





(a) 试 写 出 似 然 以 及 对 数 似 然 函 数 的 形式 . 


(b) 假设 ==1, m2==20,n==6 有 日 = (1.5,2,3,4,5,12). 加 出 似 然 函 数 以 及 对 数 似 然 函 
数 关 于 9 的 图 . 在 你 的 图 中 找 出 近似 的 最 大 似 然 估 计 . 


6 在 一 项 中 学 生 身 高 的 研究 中 , 假设 女生 的 身高 是 均值 所 和 方差 ct 的 正 态 分 布 , 男 


生 的 身高 是 均值 ka 和 方差 2 的 正 态 分 布 . 并 假设 抽出 一 名 男生 和 一 名 女生 的 概率 是 
相等 的 . 现 收集 了 数量 为 天 10 的 样本 ， 记 录 值 (cm) 如 下 


164. 167, 163. 158., 170, 183, 176, 159. 170, 167. 
(a) 假设 MH、k2、o1 和 m 是 未 知 的 . 写 出 似 然 函 数 . 
(b) 假设 已 知 cL =9 和 庙 =164. 给 出 02 和 pj 的 最 大 似 然 估计 的 数值 
(c) 假设 已 知 = 氏 =9. 给 出 jn 和 各 的 最 大 似 然 估计 的 数值 . 

















下 将 (co 中 的 估计 作为 准确 值 , 描述 利用 学 生 身 高 来 判断 学 生性 别 的 最 大 后 验 概率 准 
则 . 
BE 泊 松 分 布 随机 变量 的 参数 估计 . 利用 独立 同 分 布 泊 松 随机 变量 的 观测 值 

X1,…* ,Xn, 推导 参数 的 最 大 似 然 佑 计 ， 这 个 估计 量 是 无 偏 且 相合 的 吗 ? 
8.， 均 匀 分 布 随机 变量 的 参数 估计 (I). 给 定 ,由 上 均匀 分 布 随机 变量 的 独立 同 分 布 
观测 值 X1,…… ,Xn.9 的 最 大 似 然 估计 是 什么 ? 它 是 相合 的 吗 ? 无 偏 还 是 渐 近 无 偏 ? 你 
能 构造 一 个 另 一 个 无 偏 的 估计 量 吗 ”? 
9. 均匀 分 布 随 机 变量 的 参数 估计 (II)， 给 定 |9,9+ 让 上 均匀 分 布 随机 变量 的 独立 同 
人 六 1,… ,Xn. 试 找 出 8 的 最 大 似 然 估计 ， 它 是 相合 的 吗 ? 无 偏 还 是 渐 近 无 

2 
10.， 触动 某 光源 ， 它 每 次 将 发 射 随机 数量 KF 个 光子 . 假设 下 的 分 布 列 是 

pK(K:0) = c(O)e ®, =0,1,2,..: 


其 中 9 是 温度 的 倒数 , ct9) 是 归 一 化 因子 .假设 每 次 触动 发 射 的 光子 是 独立 的 . 现在 想 
要 通过 重复 触动 光源 ， 记 录 发 射 的 光子 数量 来 估计 光度 . 


(a) 确定 规范 化 因子 (9). 
(b) 找 出 一 次 触动 发 出 光子 数 A 的 期 望 和 方差 

(c) 根据 2 次 触动 发 出 的 光子 数 后 ，… ,Rn 推导 温度 少 = 1/9 的 最 大 似 然 估 计 
(d) 证 明 此 最 大 似 然 估计 是 相合 的 . 

11. * 充分 统计 量 - 因子 分 解 准则 ， 考 虑 如 下 观测 模型 ， 为 简单 起 见 假设 所 有 的 随机 
变量 都 是 离散 的 , 初始 观测 7 由 分 布 列 pr(t9) 给 出 ， 得 到 观测 7 , 另 一 个 观测 了 由 
不 含 未 知 参数 9 的 条 件 分 布 列 PYIT(V|) 得 到 . 直观 告诉 我 们 在 观测 向 量 X = (六) 
中 只 有 7 对 估计 9 是 有 用 的 . 正 是 这 个 问题 形成 充分 统计 量 的 思想 . 

给 定 观测 X = (X14,… ,Xn), 称 (标量 或 向 量 ) 函数 了 = 4(X) 是 9 的 充分 统计 量 ， 如 果 


了 在 给 定 随 机 变量 工 = 4 六) 的 情况 下 的 条 件 分 布 不 依赖 于 9, 也 就 是 对 于 任何 事件 D 
和 随机 变量 7 的 可 能 的 取 值 6 





















































PoelX € DIT =+1) 


0 9 是 一 样 的 . 假设 或 者 XY 是 离散 的 (在 这 种 情况 下 7 也 离散 ), 或 者 了 和 7 都 
连续 型 随机 变量 . 


(a) 证 明 : 工 =4(CX) 是 9 的 充分 统计 量 当 且 仅 当 满 足下 面 的 因子 分 解 准则 ， 似 然 函 
数 px(z:g)( 离 散 情形 ) 或 fx(z: 外 (连续 情形 ) 可 以 写成 "(4(7),9)s(z) 的 形式 , 其 中 x 和 
s 是 两 个 函数 














(b) 证 明 ; 如 果 4(X) 是 6 的 充分 统计 量 , 对 9 的 任何 函数 户 4(X) 都 是 参数 
《= Ab) 的 充分 统计 量 . 


(c) 证 明 : 如 果 4(X) 是 9 的 充分 统计 量 ,9 的 最 大 似 然 估计 可 以 写成 en = 9(4(X)) 
人 由 9 是 一 个 函数 .注意 : 这 说 明 充 分 统计 量 抓 住 了 由 XY 提供 的 关于 8 的 所 有 核心 
解 (a) 只 考虑 离散 情形 , 连续 情形 的 证 明 类 似 ， 假设 似 然 函 数 可 以 写作 (4),9)s(z) 
.我 们 来 说 明 T= gq(X) 是 充分 统计 量 . 


固定 上 考虑 使 得 Pe(T= 妇 >0 的 9. 对 任何 满足 qz) 关上 的 二 a 
立即 可 得 Po(X =z|T = 切 = 0 对 所 有 的 9 成 立 .现在 考虑 使 得 4(7) =t 的 x 利用 事 
实 Po(X =7,T=t)= PelX =7,g(X)= gq(7)) = Po(X =7X) 有 





Po(X=z,T=t) Po(X=7) 
is 全 ma。 


Po(T = PoelT =+) 
rlt.0)s(z) rt 2jsfz) 
Tag)a} T(z), 0)s(z) 7 全 信 球 Cr 区 z) 
加 Si 工 | 
gj s(2) 
因而 PelX = ty 不 依赖 于 9. 这 说 明 对 于 任意 事件 p 条件 概率 Peo(X € DIT = 性 
对 所 有 满足 PelT > 0 的 9 都 一 样 , 因而 7 是 充分 统计 量 . 


反之 ， 假 设 了 = 4(X) 是 充分 统计 量 . 对 以 任意 满足 Px( 由 >0 的 x 似 然 函 数 为 
px lz:0) = PolX = Tg(X) = gq(7))Poelg(X) = ql7)). 


由 于 7 是 充分 统计 量 ， 右 边 第 一 项 不 依赖 于 9， 就 是 stz) 的 形式 . 第 二 项 可 写成 4(2) 
和 9 的 函数 , 即 可 以 写成 r(g(z),9) 的 形式 . 


(b) 这 是 由 充分 统计 量 的 定义 就 可 以 证 明 的 , 因为 对 《= h(9) 有 
PX EDIT=t)=Po(X € DIT=+), 
所 以 Pe(X E DIT = 二 对 所 有 的 《 是 一 样 的 
(6) 根据 (有 )， 似 然 函 数 可 以 分 解 为 “(4(),0)s(), 因而 最 大 似 然 估计 在 所 有 9 中 使 
r(ql(z),9) 最 大 (车 s(z) > 0 ) 或 者 在 所 有 9 中 使 r(q(z),9) 最 小 (车 s(z) <0 ), 因 而 6 
只 通过 gi) 法 报 于 
12. * 充分 统计 量 的 例子 (I)， 在 以 下 情况 中 证 明 o(X) = 忆 和 ,Xi 是 充分 统计 量 . 
(a) Xi ,Xn 是 参数 为 9 的 独立 同 分 布 的 伯 努 利 随机 变量 
(b) Xl,… ,Xn 是 参数 为 9 的 独立 同 分 布 的 泊 松 随机 变量 . 


解 (a) 似 然 函数 为 
px (Zz; 9) = 09(7)(1 一 日) qz) 


因而 可 以 将 它 分 解 为 函数 9 了 (1 一 "99 和 常 函数 stz) = 1 的 乘积 ,前 者 只 通过 dfz) 
依赖 于 x 根据 因子 分 解 准 则 得 知 其 为 充分 统计 量 . 


(b) 似 然 函数 为 


nn » 
1 是 | | [ 一 如 | | 的 一 9 nglI) l 
px li; 0) 一 | px, (Ti) 二 € 《 区 一 ee 0 
= = 


i=l 


因而 可 以 将 它 分 解 为 函数 ee) 和 函数 stz) = 1/Tizil 的 乘积 , 前 者 只 通过 dtz) 依 
赖 于 x 而 后 者 只 与 x 有 关 . 根据 因子 分 解 准则 得 知 其 为 充分 统计 量 . 


13.# 充分 统计 量 的 例子 (ID) .六 1,… ,六 n 是 均值 上 和 方差 o? 的 独立 同 分 布 正 态 随机 
变量 . 证 明 : 


(a) 若 oz 已 知 , 则 o(X)= 忆 =1Xi 是 上 的 充分 统计 量 . 
(b) 若 A 已 知 , 则 0)= PIC 一 中 是 o? 的 充分 统计 量 . 
(c) 如 果 A 和 o? 都 未 知 , 则 9(X)= (EXE ) 是 (Ac 的 充分 统计 量 . 
解 ” 利 用例 9. 4 的 计算 和 因子 分 解 准则 . 
14.* 拉 奥 - 布莱克 韦 尔 定理 ， 这 个 问题 是 的 要 义 是 : 一 人 起 的 估计 量 ， 可 以 改进 
为 只 依赖 于 充分 统计 量 的 估计 量 . 设 给 定 观 测 六 = (X1,… ,六 wj, 了 = 4(X) 是 参数 9 的 
充分 统计 量 , 9(X) 是 9 的 一 个 估计 量 . 
(a) 证 明 Esl9(X)L 对 所 有 9 都 一 样 .因此 可 以 去 掉 下 标 9， 将 

dX) = Elg(X)|T 
看 作 9 的 一 个 新 估计 量 ， 它 只 通过 7 依赖 于 不 
(b) 证 明 估 计量 9(X) 和 9X) 的 偏差 相等 . 
(c) 证 明 对 满足 vare(g(X)) < oo 的 由 

Eel(9(X) 一 03 < Eol(g(X) 一 人 3]. 

进一步 地 ， 给 定 9, 此 不 等 式 是 严格 的 当 且 仅 当 

Eglvar(g(X)|T)] > 0 


解 (a) 因为 了 =4(X) 是 充分 统计 量 , 条 件 分 布 Po(X = zl7 = 性 不 依赖 于 g， 因 而 
Eslg(X)|T] 也 不 依赖 于 6 











(b) 利用 条 件 期 望 的 性 质 
Eslg(X)] = Es[Elg(X)|T)] = EolG(X)], 
可 知 9(X) 和 9(X) 的 偏差 相等 . 
(c) 对 固定 对 9, 将 9(X) 和 9(X) 的 偏差 记 为 如 ， 根 据 全 方差 定律 有 


Egl(g(X) 一 03 =vare(g(X)) + 
=Eg[var(g(X)|T)] + vare(E[g(X)|T])+b2 
=Eg[var(g(X)|T)] + vare(O(X)) + bs 


=Eolvar(g(X)|T)] + Eol(9(X) 一 9 
>Eg[(9(X) — 9)3), 
且 不 等 式 是 严格 的 当 且 仅 当 Eo[var(9g(X)|T)] > 0 
15.* 设 和 1,… ,Xn 是 |0, 外 上 独立 同 分 布 的 均匀 分 布 随 机 变量 
(a) 证 明 Fznaxj1 ,是 充分 统计 量 . 
(b) 证 明 9(X) = @/m ZE 是 无 偏 估计 


(c) 找 出 估计 量 9(X) = Elg()|T] 的 形式 , 计算 并 比较 Eo[(9(X) 一 久 ] 和 
Esl(g(X) 一 0) 


解 (a) 似 然 函数 为 
fx(T1,'' ,Tn;0)= fxi(21;0) fx, (Tn; 0) 
1 着 0 1 
0， ”其 他 ， 
只 通过 g( 加 =maxj-1...pxi 依赖 于 x 根据 因子 分 解 准 则 得 知 其 为 充分 统计 量 . 
(b) 有 





(c) 在 事件 {T= 村 中 ， 一 个 观测 Xi 等 于 t . 剩 下 的 六 1 个 观测 服从 区 间 [0, t ] 上 
的 均匀 分 布 ， 条 件 期 望 为 t/2. 这 样 ， 


_ 2 ee 2 人 (一 二 有 十 1 
E[g(X)IT7 =4#] = -PE xr- | = 一 (2 ) = 一 


EA 





因此 G(X) = Elg(X)T) = (n+ DT/n. 





下 面 来 计算 两 个 估计 量 9(X) 和 gl 六 ) 的 均 方 误差 . 为 此 要 计算 9 ) 的 一 阶 矩 和 二 阶 
和 矩 ， 有 


Esl9(X)] = EslE[lg(X)|T]] = Evlg(X)] = 6. 


为 找 二 阶 矩 ， 首 先 确定 7 的 概率 密度 函数 .对 上 [0 ， 有 Fe( 三才 = 世人 ,微分 得 
亲信 由 = nt/ 多 因此 ， 


Eo 7 十 1 7 十 1 有 到 
Esl(9(X))] = -一 E[T’| = ( | t* frlt: 9)dt 
nn nn J0 
(=:) [ nt"™-! (n+1)? 
二 下 dt 一 
n ho gm n(n 十 2 
因为 glX) 的 均值 是 9， 其 均 方 误差 和 方差 相等 ， 


i a oe ri 1 
Eg[(9(X) 一 9 = Ego[(9(X))] — 0 = n+l 2 92. 


nln+t2) nln+t 2) 

















类 似 地 , 9) 的 均 方 误差 也 和 其 方差 相等 ， 即 
Eyl(g(X) 一 9 = SY vare(Xi) = 4:n 守 = 


1 1 
可 以 看 出 对 正 整 数 pz 有 3n > itn 二 2)， 所 以 
Eg[(9(X)— 0)] < Egl(g(X) — 0)3], 
符合 拉 奥 - 布莱克 韦 尔 定理 . 


9.2 节 线性 回归 


16. 一 家 电力 公司 想 要 估计 消费 者 日 用 电量 和 夏天 每 日 温度 (华氏 温标 ) 之 间 的 关系 . 收 
集 数据 见 下 表 . 



































用 电量 |23.67 |20.45 |21.86 |23.28 |20.71 |18.21 |18.85 |20.10 |18.48 |17.94 





























(a) 建立 可 用 来 预测 用 电量 (温度 的 函数 ) 的 线性 回归 模型 并 估计 参数 . 
(b) 若菜 天 温度 是 90 度 (华氏 度 ) ， 试 预测 当天 的 用 电量 . 








17. 下 表 给 出 5 个 数据 对 Ti, Yi)， 





3 20. 906 103. 544 2 33359J0l 





想 对 x 和 7 的 关系 建立 模型 ， 考 虑 线性 模型 
玫 = 加 二 bzi 二 Ti 一 1 ,5, 
以 及 二 次 模型 
= P+Pr+V,1=1,..,5, 
其 中 Wi 和 Wi 是 附加 噪声 项 , 视 为 独立 零 均值 正 态 随机 变量 , 方差 分 别 为 ci 和 吗 
(a) 找 出 线性 模型 参数 的 最 大 似 然 估计 . 
(b) 找 出 二 次 模型 参数 的 最 大 似 然 估计 . 


(c) 假设 这 两 个 模型 为 正确 模型 的 概率 是 一 样 的 , 噪声 项 Wi 和 Vi 的 方差 也 一 样 : 
ci = 3. 用 最 大 后 验 概率 准则 从 两 个 模型 中 做 出 选择 . 


18.* 线性 回归 中 的 无 俩 性 和 相合 | 性 #*#. 考虑 概率 范畴 下 的 回归 ， 假 设 

训 ea + Wii=1,…,n， 其 中 WW 是 独立 同 分 布 的 零 均值 正 态 随机 变量 , 方差 为 
oz 给 定 zi 和 于 的 实际 值 Ww i 二 1… ,n ， 名 和 负 的 最 大 似 然 估计 由 9.2 节 中 的 
线性 回归 公 \ 式 给 出 . 


(a) 证 明 如 和 负 的 最 大 似 然 估 计 是 无 偏 的 . 
(b) 证 明 估 计量 6o 和 61 的 方差 分 别 是 














和 、 o? -8 2 入 、 o? 
var(O0) = sr var(A1) = Fr 
它们 的 协 方差 是 
cov(O0, ©1) 一 2 
De (rs — 3) 
(c) 证 明 若 (Wi 一下 % 且 如 在 n 一 oo 时 被 一 个 常数 控制 , 则 有 var(80) 一 0 


和 var(@1) 0， ( 据 此 以 及 切 比 雪夫 不 等 式 可 知 , 6o。 和 6 都 是 相合 的 .) 


注意 : 尽管 在 本 题 中 假定 Wi 是 正 态 的 (在 求 最 大 似 然 估计 量 时 要 用 到 Wi 的 分 布 ), 但 
是 后 面 的 论证 说 明 即 使 没有 这 个 假设 ， 估 计量 仍然 是 无 偏 且 相 合 的 . 


解 (a) 将 名 和 负 的 真实 值 分 别 记 为 页 和 负 . 已 知 














3 9 学 i)(Y = Y) 


[3 二 、 en 天 了 一 O11, 


其 中 了 = (Yi)/n, 并 将 z1,… ,zn 看 作 常 数 . 记 WW= (D1 Wi)/n, 则 有 


Y=W+0ri+Wi, Y=W+0i+WW, 


以 及 

Y—Y=0(r— 71)+(W— WM. 
因此 

e， _ Dii(Ti — i Wi Wm) a 一 - 0 WT) 
1 
这 里 用 到 事实 Zi(ei 一 直 =0 由 于 ET = 0， 我 们 得 到 
E[O1] = 外 . 

同样 由 


和 事实 EIej] = 从 以 及 EIW] = 0 得 到 
E[6o] = 他 
因此 估计 量 6o 和 61 是 无 偏 的 . 
， 现在 来 计算 两 个 估计 量 的 方差 . 利用 (人 中 推导 关于 91 的 公式 和 Wi 的 独立 性 ， 
DTi — 2) var(Wi) _ o? 
(D(zi— 3) Dri 2) 
类 似 的 用 (a) 中 推导 关于 6o 的 公式 有 


var(O0) = var(W — O17) = var(W) + zi2var(O1) — 2icov (WW. O1). 


varf 昌 1) = 


(Zi SS I) 一 
4 于 各 以 及 EVW] = ojn 对 所 有 7 成 立 ， 于 是 得 到 
cov(W ©)) = BY 2 一 司 f 央 二 2 一 有 0 


Di(Ti 一 十 Dei 一 五 2 





组 合 最 后 三 个 等 式 ， 得 到 


02 zo? 02 D1 (Ti — 云 )2 十 7 五 2 


-一 十 到 二 一 一 
n De (Ts — 1)? n 3 一 云 )2 


var(O0) = var(W +z2var(O1) = 


二 项 展开 (zi 一 7)” 得 到 


组 合 前 面 两 个 等 式 , 得 到 


可 n | 
i Di 2 
var(0) = 2 Ti 


最 后 来 计算 6o 和 91 的 协 方差 . 有 
cov(O0, ©1) = E[(eo 一 外 )(6l 一 人 让)] = E[((W 一 日 去 十 丈 )(l 一 分 )]， 
或 者 
cov(O0, O01) = —ivar(O1) + cov(W, ©1). 


由 于 之 前 说 过 cov(WW, 691) = 0， 最 终 得 至 


he 


2 
TI 


> 1(zi 一 五 )2 
了 


(c) 若 Ziei 一 直 一 oo 由 (b) 中 推导 的 表达 式 可 知 var(61) 一 0. 进一步 由 (b) 中 公式 


cov( 昌 1， | ) 一 一 





var( ©0) = var(W) 十 zivar(O1), 
以 及 假设 过 被 一 常数 控制 可 知 var(eo) 一 0. 
19.* 线性 回归 中 的 方差 估计 . 在 和 18 题 相同 的 假设 条 件 下 ， 证 明 





oz 的 无 偏 估计 量 . 


攻 他 


令 不 = D1(Yi 一 60 一 91zi). 用 公式 6o = 了 一 Biz 和 1 的 表达 式 得 到 


t=1 
-2 -YY)2 一 26i 2 —Y)(ri— 1z)+ OV _ 5)? 
这 1 
-> —Y) -6D _ 2)? 
-条 好 -人间 
i=1 1 





两 边 取 期 望 得 到 

ElV] = 》 E[Y?] — nE[YY -Pe — i)2E[O3. 
同时 有 

E[Y:’] = var(¥ ) + (E[Y HP = 十 (的 十 从 7i)”， 

ElY ] = var(Y ) + (E[Y])? = 气 十 (个 十 于 五 ) 

E[6i = var(e6l) +(E[6i])2 = 去 本 后 7 + (O07)*. 
组 合 4 个 等 式 并 化 简 ， 得 到 

E[lV] = 人 一 2)c2 


9.3 节 简单 假设 检验 


20， 随 机 变量 了 由 正 态 概 率 密度 函数 刻画 ， 均 值 各 = 20, 方差 或 者 是 ml = 16( 假 设 
Ho ) 或 者 是 = 3( 假 设 本 ). 对 于 这 样 的 一 个 简单 假设 检验 问题 , 我 们 采用 拒绝 域 


R= {zlzrl +za 二 za > 7}, 


其 中 7 是 待定 的 临界 值 . 设 错误 拒绝 概率 为 0. 05, 相应 的 Y 等 于 多 少 ?相应 错误 接受 的 
概率 是 多 少 ? 


21. 已 知 正 态 随机 变量 了 的 均值 为 60, 标准 差 为 5 (假设 Ho ) 或 8 (假设  ). 
(a) 考虑 用 一 个 简单 样本 x 来 做 假设 检验 . 拒绝 域 的 形式 为 
二 二 {zl|lz 一 60| > ? 上 


在 错误 拒绝 Ho 的 概率 为 0. 1 的 情况 下 确定 7 的 取 值 . 相应 错误 接受 的 概率 是 多 少 ? 
如 果 以 同样 的 错 误 拒 绝 概 率 , 用 似 然 比 检验 会 改变 拒绝 域 吗 ? 


(b) 考虑 用 了 个 样本 zz 来 做 假设 检验 . 拒绝 域 的 形式 为 








其 中 7 使 得 错误 拒绝 Ho 概率 为 0. 1. 错误 接受 的 概率 随 着 n 的 改变 如 何 变化 ? 就 这 
种 检验 的 恰当 之 处 做 个 总 结 . 


(c) 用 2 个 观察 值 I,… ,zn 来 推导 似 然 比 检验 的 构成 . 

22， 有 两 个 关于 给 定 硬币 正面 向 上 概率 的 假设 : 9 = 0.5 (假设 Ho) 和 9= 0.6( 假 设 刀 
). 设 了 是 n 次 投 撕 中 正面 朝 上 的 次 数 ， 当 n 足够 大 时 , 子 的 分 布 可 以 合理 近似 为 正 
态 分 布 ， 对 于 这 样 的 简单 假设 检验 问题 , 若 XY 大 于 茶 个 合适 的 选择 值 总 则 拒绝 Ho . 
(a) 当 错 误 拒 绝 的 概率 小 于 或 等 于 0. 05 时 , 总 的 取 值 应 该 是 多 少 ? 

(b) 为 保证 错误 拒绝 和 错误 接受 的 概率 都 不 超过 0. 05, 2 的 最 小 值 是 多 少 ? 


> 当 n 取 () 中 的 值 , 以 相同 的 错误 拒绝 概率 做 似 然 比 检验 ， 此 时 错误 接受 的 概率 是 
少 ? 

23， 票 务 公 司 一 天 内 接 到 电话 的 总 数 服 从 泊 松 分 布 ， 平 常 日 , 电话 数 的 期 望 值 是 和 %; 
城 里 有 热门 演出 的 一 天 , 电话 数 的 期 望 为 入 ， 且 入 >  . 描述 根据 电话 总 数 判断 城 里 
是 否 有 热门 演出 的 似 然 比 检验 . 假设 给 定 了 错误 拒绝 的 概率 ， 写 出 临界 值 《 的 表达 式 . 
24， 有 一 批 灯泡 ， 其 寿命 为 独立 同 分 布 的 指数 分 布 随机 变量 , 参数 为 (假设 Ho ) 或 
AL 假设 后 ). 对 于 这 个 假设 检验 问题 , 测量 个 灯泡 的 寿命 值 ， 求 出 相应 的 似 然 比 检 
验 的 拒绝 域 . 假设 错误 拒绝 Ho 的 概率 给 定 ， 写 出 临界 值 《 的 解析 表达 式 . 


9.4 节 显著 性 检验 


25， 设 了 是 均值 为 /方差 为 1 的 正 态 随机 变量 . 现在 想 利用 的 ”个 独立 观察 值 
在 5% 显 著 水 平 下 检验 假设 = 5 


(a) 样本 均值 在 什么 范围 内 就 接受 假设 ? 

(b) 令 和 天 10. 计算 在 A 的 真实 值 是 4 的 情况 下 接受 4= 5 的 概率 . 

26.， 从 未 知 均值 4 和 方差 o? 的 正 态 分 布 中 抽取 五 个 独立 观察 值 . 

(a) 若 样 本 值 为 8. 47、10. 91、10.87、9. 46、10. 40, 估计 Kk 和 c2 

利用 (a) 中 的 估计 和 分 布 表 , 在 95% 显 著 水 平 下 检验 假设 4 = 9. 

27， 两 个 岛 上 生长 了 同一 种 植物 . 假设 植物 在 第 一 个 (或 第 二 个 ) 岛 上 的 寿命 ( 按 天 计算 ) 
服从 未 知 均值 Ax( 或 KY ) 和 方差 ox = 32( 或 cy = 29) 正 态 分 布 . 现在 从 每 个 岛 上 获得 


10 个 独立 观察 值 ， 我 们 想 检 验 假设 x = /mr. 相应 样本 均值 是 z 二 181 和 了 = 177 问 数 
据 在 95% 显 著 性 水 平 下 支持 假设 吗 ? 
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28， 一 家 公司 在 考虑 购买 一 台 制造 某 种 零件 的 机 器 ， 测 试 时 , 机 器 制造 的 600 个 零件 中 
28 个 有 缺陷 . 问 数据 是 否 在 95% 显 著 水 平 下 支持 假设 “机 器 的 缺陷 率 小 于 3%”? 





29， 设 泊 松 随机 变量 的 五 个 独立 观察 值 为 : 34、35、29、31、30. 在 5% 显 著 水 平 下 检验 
均值 是 否 等 于 35. 


30， 一 台 监 视 器 周期 性 地 检查 某 个 特定 区 域 , 并 根据 是 否 有 入 侵 者 记录 信号 ,和 = W 为 
没有 入 侵 者 (此 为 原 假设 i ),X = 9+W 为 存在 入 侵 者 ， 其 中 9 非 负 未 知 . 假设 灰 
是 零 均 值 、 方 差 v = 0.5 的 正 态 随机 变量 . 




















(a) 得 到 一 个 观测 值 X = 0.96. 在 5% 显 著 水 平 下 是 和 否 拒绝 Ho ? 





(b) 得 到 五 个 观测 值 态 0. 96、-0. 34、0. 85、0. 51、-0. 24. 在 5% 显 著 水 平 下 是 否 拒绝 
Ho ? 


(c) 重复 (b)， 用 大分 布 ， 并 假设 方差 v 未 知 . 


几 个 特殊 离散 随机 变量 的 小 结 
在 [a， 习 上 的 均匀 分 布 : 


1 时 
一 一 一 一 ， 汽 卡 二 a,a 十 1， ,已 
px(k) 一 Fi WS 1 
0， 其 他 ， 
a+b pe (一 ajlp 一 QQ 十 2) 六 es (esb-otl) 1) 
MS a 


参数 为 p 的 伯 努 利 分 布 : 辫 


~ 


画 单 个 试验 的 成 功 或 失败 . 





p, 有 = 1 
px (k) = 
1 一 2; 者 k= 0, 
EI[X|]=p, varllX)=p(l—p), Mx(ls)=1—p+pe.. 


参数 为 p 入 的 二 项 分 布 : 刻画 2 个 独立 的 伯 努 利 试验 中 的 成 功 数 . 


px (k) = (ro EE TF 








Elz| =np, varllX)=np(l—p), Mx(s)= (1—p+pe')". 


P 的 几何 分 布 : 刻画 在 一 列 独立 的 伯 努 利 试验 中 直到 出 现 第 一 次 成 功 前 的 
试验 数 . 


px(k)=(1— plp, k=1,2,. 


1 ee ] 一 
E[X|] = -, var(X)= Mx!ls) = 





参数 为 的 泊 松 分 布 ， 当 n 很 大 、p 很 小 时 近似 为 二 项 分 布 , 且 有 入 = zz 


A 


x k=0,1,.… 


px lk) = 和 


E[IX] =A, var(X) = 入 Mx(s) = ey. 


几 个 特殊 的 连续 随机 变量 的 小 结 
在 [a 如上 的 连续 均匀 分 布 : 




















1 a 
fx (x) = 
0， 其 他 ， 
a+b i (b—a) esb 一 esa 
人 Na) 
参数 为 的 指数 分 布 : 
和 
fx(7z) = Fx(z) = 
8 NA 他 ， 0， 
Elz] = - var(X)= 二 Mx (zr) = (s < A). 
参数 为 上 和 o? > 0 的 正 态 分 布 : 
1 —(r—p)2/202 
J WA > 


标准 正 态 分 布 表 


0. 08 0. 09 





0.5319 |0.5359 


.5714 |0.5753 


.6103 |0.6141 





.6480 |10.6517 


.6844 |0.6879 





.7190 |0.7224 





.7517 |0.7549 


7823% 0.7852 





.8106 |0.8133 


.8365 |0.8389 


.8599 |0.8621 





.8810 |0.8830 


.8997 |0.9015 





SoL620 O89 





.9306 |10.9319 





1.5 |0.9332 |0.9345 |0.9357 |0.9370 |0.9382 |0.9394 |0.9406 |0.9418 |0.9429 |0.9441 






























































0. 08 0. 09 
. 9535 .9545 
S9625 . 9633 
. 9699 . 9706 
. 9761 ONON 
.9812 .9817 
. 9854 .9857 
. 9887 . 9890 
LS . 9916 
. 9934 .9936 
. 9951 S9952 
. 9963 . 9964 
S9973 .9974 
. 9980 . 9981 
. 9986 . 9986 
. 9990 . 9990 
S9993 S9993 





0. 09 


Te eT 
: 0.9994 |0.9994 |0.9994 |0.9995 |0.9995 10.9995 
0599960s9997 

0.9998 


3.3 |0.9995 |0.9995 
3.4 |0.9997 ee 
_ 中 了 是 标准 正 态 随机 变量 ，0 < y 三 3.49. 例如 要 查找 
1.71) 三 0.9564. 当 jy 为 负 值 的 时 候 ， 


注 ; 表 中 的 项 提供 了 时 (VY) 二 PlY < 功 的 值 ， 虹 
下 (1.41) 的 值 , 我 们 只 需 在 1. 7 这 一 行 中 找 与 0. 01 对 应 那 一 列 的 数值 . 故 中 | 
可 利用 一切 计算 ty) 的 值 
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公式 9) =1 




















看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contactQ@turingbook. com， 会 有 编辑 或 作 译 者 
协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : ebook@turingbook. com。 
在 这 里 可 以 找到 我 们 : 


。 微 博 @ 图 灵 教 育 : 好 书 、 活 动 每 日 播报 

。 微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

。 微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

。 微 信 图 灵 访 谈 : ituring interview， 讲 述 码 农 精彩 人 生 
。 微 信 图 灵 教 育 : turingbooks 























图 灵 社 区 会 员 人 民 邮 电 出 版 社 (zhanghaichuan@ptpress. com. cn) 专 享 尊重 版 权 


